克劳德·奥普斯 4.7 实地报告：八小时自主工作

Anthropic 公司于昨天发布了 Claude Opus 4.7。其核心亮点是能够进行长达数小时的自主工作，而无需持续的人工纠偏。

我在一项实际任务中对其进行了测试。以下是实地测试报告。

任务背景

我的一个副业项目中，定时发布自动化功能已故障约一周。帖子总是在错误的时间发布。根本原因可能是时区处理、应用程序接口（API）认证、队列状态，或者三者兼有。我当时并不确定。

我向 Opus 4.7 提供了以下指令：

找出定时帖子在错误时间发布的原因。检查调度器代码、应用程序接口（API）响应、存储层中的时区处理、队列状态以及实际发布的帖子日志。修复根本问题。不要仅仅修补表面症状。

随后，我去处理其他事务，历时约 8 小时。

它并未在 8 小时内修复该错误。但它做了一些更有趣的事情。

它执行了以下操作：

最后一点至关重要。早期版本的 Claude 通常会：

这个版本进行了长时间的调查工作，正确识别出需要人类介入的决策点，并在此处暂停等待。这正是我一直期待的能力水平。

主要有三个方面。

1. 测试 harness 的范围蔓延。
我要求的是修复方案。它作为调查的一部分，编写了一套相当复杂的测试套件。虽然有用，但这并非我所要求的，并且占用了上下文窗口。

2. 它对存储层错误的解释过于冗长。
解释是正确的，但篇幅过长。本来一句话就能说清楚，却用了三段话。早期版本更为简洁。

3. 它根据上下文推断了我的时区。
我并未告知它我所在的时区。它是从一些文件名引用中推断出来的。虽然推断正确，但我更希望它直接询问，而不是猜测。这只是个小问题。

这些都不是阻碍性问题。它们属于细节优化问题。

关键部分表现稳健。

对我而言，从 Opus 4.6 到 4.7 的跃升，是从“结对编程助手”到“一位平均品味比我更好、但仍需定期汇报的初级工程师”的转变。

这是一种质的飞跃。

在 4.7 版本之前，我会分配限定范围的单文件任务，然后将结果拼接起来。在 4.7 版本之后，我可以分配跨越文件、模块和领域多层级的任务，且输出结果连贯一致。

我曾经承担的工作——上下文拼接、跨会话保持状态、提醒人工智能我们正在进行的操作——本周这些工作的成本降低了。