我在真实项目中监督5个智能体所学到的经验

我在一个真实的 Rust 项目上并行运行了 5 个 AI 编码代理，持续了一周。这不是演示，也不是玩具项目，而是一个拥有 5.1 万行代码、已有真实用户的代码库。

以下是实际发生的情况——附带真实数据。

实验设置

项目：一个 Rust 命令行工具，包含守护进程、tmux 集成、消息路由和看板面板解析器。

团队配置：

持续时间：5 个工作日，每天约监督 6 小时。

任务内容：积压数周的功能开发、代码重构和缺陷修复任务。

在 30 小时的监督下完成了 47 项任务。如果由我独自串行完成这些工作，大约需要 120 小时——效率提升了 4 倍。

架构师代理每天前 30 分钟都会阅读任务积压列表，并将功能拆解为相互独立、可测试的小任务。这一规划阶段是整个流程中最有价值的一步。

糟糕的拆解示例：“重构消息路由系统。”三名工程师尝试进行重叠修改，每次合并都产生冲突。

良好的拆解示例：“将投递重试逻辑提取到独立模块。”“为消息投递添加超时配置。”“为 Maildir 原子重命名编写测试。”这三个任务彼此独立，零冲突。

架构师输出的质量直接决定了当天工作是顺利推进还是陷入冲突调解之中。

有 12 次，工程师声明任务已完成，但测试套件却失败了。如果没有测试门禁机制，这 12 个有问题的分支就会被合并到主干，引发连锁故障。

典型模式是：工程师产出的代码能够编译、看起来正确，并且能处理正常路径。但它遗漏了边界情况、破坏了已有测试，或引入了细微的回归问题。测试门禁会捕获这些问题，将失败日志反馈回去，工程师通常在第一次重试时就能修复。

在这 12 次拦截中，有 3 次问题尤为严重：合并锁中的竞态条件、配置解析中缺失的空值检查，以及一个本地通过但因硬编码路径而在 CI 中失败的测试。若无门禁机制，其中任何一个问题一旦进入主干，都将耗费数小时排查。

每位工程师都在自己独立的 Git 工作树和分支上工作。在活跃开发期间，完全没有出现文件冲突。多名工程师可以同时编辑同一文件而互不知情。

冲突仅在合并时出现——47 项任务总共只发生了 4 次冲突。由于每次只合并一个分支（通过文件锁实现串行化），所有冲突都很容易解决。

有三次，工程师在任务中途达到了上下文窗口限制。每次的情况都类似：一个看似简单的任务，但实际上……

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。