克劳德·奥普斯 4.7 实地报告:八小时自主工作

发布日期:2026-04-20 09:20:37   浏览量 :3
发布日期:2026-04-20 09:20:37  
3

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

Anthropic 公司于昨天发布了 Claude Opus 4.7。其核心亮点是能够进行长达数小时的自主工作,而无需持续的人工纠偏。

我在一项实际任务中对其进行了测试。以下是实地测试报告。

任务背景

我的一个副业项目中,定时发布自动化功能已故障约一周。帖子总是在错误的时间发布。根本原因可能是时区处理、应用程序接口(API)认证、队列状态,或者三者兼有。我当时并不确定。

我向 Opus 4.7 提供了以下指令:

找出定时帖子在错误时间发布的原因。检查调度器代码、应用程序接口(API)响应、存储层中的时区处理、队列状态以及实际发布的帖子日志。修复根本问题。不要仅仅修补表面症状。

随后,我去处理其他事务,历时约 8 小时。

实际发生的情况

它并未在 8 小时内修复该错误。但它做了一些更有趣的事情。

它执行了以下操作:

  1. 可靠地复现了该错误。
  2. 在技术栈的四个不同层级中插入了调试日志。
  3. 编写了一个测试 harness,通过管道以受控的时间戳触发模拟帖子。
  4. 确定该错误实际上是两个错误,而非一个——一个位于我的存储层(使用简单的本地时间戳),另一个位于调度器(假设输入为协调世界时 UTC)。
  5. 提出了针对存储层的修复方案,该方案需要对现有数据进行一次性迁移。
  6. 在此处暂停,并询问我是否接受该数据迁移方案。

最后一点至关重要。早期版本的 Claude 通常会:

  • 直接向前推进并执行迁移(令人担忧)
  • 过早停止并询问该如何操作(令人烦恼)

这个版本进行了长时间的调查工作,正确识别出需要人类介入的决策点,并在此处暂停等待。这正是我一直期待的能力水平。

出现偏差的地方

主要有三个方面。

1. 测试 harness 的范围蔓延。
我要求的是修复方案。它作为调查的一部分,编写了一套相当复杂的测试套件。虽然有用,但这并非我所要求的,并且占用了上下文窗口。

2. 它对存储层错误的解释过于冗长。
解释是正确的,但篇幅过长。本来一句话就能说清楚,却用了三段话。早期版本更为简洁。

3. 它根据上下文推断了我的时区。
我并未告知它我所在的时区。它是从一些文件名引用中推断出来的。虽然推断正确,但我更希望它直接询问,而不是猜测。这只是个小问题。

这些都不是阻碍性问题。它们属于细节优化问题。

保持稳定的地方

关键部分表现稳健。

  • 在整个会话过程中,它始终专注于任务,无需我重新引导。
  • 它没有虚构应用程序接口(API)的结构——当不确定时,它会读取实际的响应内容。
  • 它生成的代码差异补丁清晰易读,我可以逐行审核并批准。
  • 它捕捉到了一个真正细微的第二个错误,而我在之前的自行调试中遗漏了这一点。

这实际上带来了什么改变

对我而言,从 Opus 4.6 到 4.7 的跃升,是从“结对编程助手”“一位平均品味比我更好、但仍需定期汇报的初级工程师”的转变。

这是一种质的飞跃。

在 4.7 版本之前,我会分配限定范围的单文件任务,然后将结果拼接起来。在 4.7 版本之后,我可以分配跨越文件、模块和领域多层级的任务,且输出结果连贯一致。

我曾经承担的工作——上下文拼接、跨会话保持状态、提醒人工智能我们正在进行的操作——本周这些工作的成本降低了。

它仍然无法做到的

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部