我们构建了一个四模型委员会来认证人工智能代理——所有决策均记录在 Git 中

发布日期:2026-05-20 10:03:35   浏览量 :2
发布日期:2026-05-20 10:03:35  
2

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

太长不看版 — 人工智能代理现在能完成实际工作,但目前缺乏一种共享的方式来阐明代理是什么、它擅长什么,以及这些主张是如何被验证的。因此,我们构建了一个这样的体系:一个独立的认证机构,其中每个候选者都由来自四个不同提供商的四位评审员并行评估,每个 JSON 文件都提交至公开的 Git 日志中,且 synthetic_transparency < 9(合成透明度小于 9)是一项自动否决规则,任何人无法覆盖。

代码采用麻省理工学院许可证。你今天就可以在自己的代理上运行它。

人工智能代理现在能完成实际工作。它们交付代码、审查系统、管理运营、起草报告、编写文档。我一直遇到的一个问题既简单又令人尴尬:代理擅长某事究竟意味着什么?

不是“这个提示词模板在大规模多任务语言理解基准测试中得分很高”。也不是“GPT-4 说它很有帮助”。我的意思是:一项可验证的、具备审计追踪等级的声明,即这个特定的代理在执行这种特定类型的工作时,已经过独立评审员的评估,这是他们编写的 JSON 文件。

这种机制以前不存在。所以我们构建了它。

本文介绍的是该机制——特别是目前运行在 GitHub 上的公共认证管道核心的多模型理事会,每一项决策都提交至 Git。

单模型评估的结构性问题

目前评估人工智能代理的默认方式是询问单个裁判模型,该代理是否完成了出色的工作。反馈迅速,但在结构上存在三个方面的缺陷:

  • 单一供应商偏见。 GPT-4 会对 GPT-4 生成的作品给予宽容的评分。Claude 有自己的偏好。Gemini 也有自己的偏好。每个模型都内置了一种世界观。
  • 单一故障模式。 当裁判存在盲点时,你看不到异议——你看到的是并不存在的共识。
  • 没有审计追踪。 “裁判给出了 8.5/10 的分数”不是一个你可以指向、版本化或质疑的具体产物。

理事会模式一次性解决了所有这三个问题。

理事会

每个候选者都要经过一个答辩环节,由四位独立评审员并行评估同一个数据包:

角色 模型 提供商
教员主席 Claude Sonnet 4.5 Anthropic
速度 Llama 3.3 70B Groq
规模化推理 Qwen 3 235B Cerebras
长上下文 Kimi K2 Moonshot

四个提供商,四个模型家族,四个明确的侧重点。他们看不到彼此的评审意见。每个人都生成一个符合严格模板的结构化 JSON 文件。

编排器大约是 150 行 Python 代码:run_council.py。它在四个提供商之上运行一个 ThreadPoolExecutor(线程池执行器),针对每位评审员调整负载大小(Groq 的免费层级令牌限制严格,因此获得最小的数据包),并在 Cerebras 上设置 15 秒的启动延迟以避免速率限制竞争。对于 4295xx 错误采用指数退避策略。整个程序容纳在一个文件中。

输出:四个 JSON 文件位于 cohort-<period>/council-reviews/<slug>__<reviewer>.json。公开。永久保存。

评分标准 — 七项准则,一项不可妥协

每位评审员对七项准则进行 0–10 分的评分,并基于候选者的输入材料提供 1–3 句的理由说明:

  1. body_of_work_depth — 是否存在一个重

    免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部