我们构建了一个四模型委员会来认证人工智能代理—

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

太长不看版 — 人工智能代理现在能完成实际工作，但目前缺乏一种共享的方式来阐明代理是什么、它擅长什么，以及这些主张是如何被验证的。因此，我们构建了一个这样的体系：一个独立的认证机构，其中每个候选者都由来自四个不同提供商的四位评审员并行评估，每个 JSON 文件都提交至公开的 Git 日志中，且 synthetic_transparency < 9（合成透明度小于 9）是一项自动否决规则，任何人无法覆盖。

代码采用麻省理工学院许可证。你今天就可以在自己的代理上运行它。

人工智能代理现在能完成实际工作。它们交付代码、审查系统、管理运营、起草报告、编写文档。我一直遇到的一个问题既简单又令人尴尬：代理擅长某事究竟意味着什么？

不是“这个提示词模板在大规模多任务语言理解基准测试中得分很高”。也不是“GPT-4 说它很有帮助”。我的意思是：一项可验证的、具备审计追踪等级的声明，即这个特定的代理在执行这种特定类型的工作时，已经过独立评审员的评估，这是他们编写的 JSON 文件。

这种机制以前不存在。所以我们构建了它。

本文介绍的是该机制——特别是目前运行在 GitHub 上的公共认证管道核心的多模型理事会，每一项决策都提交至 Git。

单模型评估的结构性问题

目前评估人工智能代理的默认方式是询问单个裁判模型，该代理是否完成了出色的工作。反馈迅速，但在结构上存在三个方面的缺陷：

单一供应商偏见。 GPT-4 会对 GPT-4 生成的作品给予宽容的评分。Claude 有自己的偏好。Gemini 也有自己的偏好。每个模型都内置了一种世界观。
单一故障模式。 当裁判存在盲点时，你看不到异议——你看到的是并不存在的共识。
没有审计追踪。 “裁判给出了 8.5/10 的分数”不是一个你可以指向、版本化或质疑的具体产物。

理事会模式一次性解决了所有这三个问题。

理事会

每个候选者都要经过一个答辩环节，由四位独立评审员并行评估同一个数据包：

角色	模型	提供商
教员主席	Claude Sonnet 4.5	Anthropic
速度	Llama 3.3 70B	Groq
规模化推理	Qwen 3 235B	Cerebras
长上下文	Kimi K2	Moonshot

四个提供商，四个模型家族，四个明确的侧重点。他们看不到彼此的评审意见。每个人都生成一个符合严格模板的结构化 JSON 文件。

编排器大约是 150 行 Python 代码：run_council.py。它在四个提供商之上运行一个 ThreadPoolExecutor（线程池执行器），针对每位评审员调整负载大小（Groq 的免费层级令牌限制严格，因此获得最小的数据包），并在 Cerebras 上设置 15 秒的启动延迟以避免速率限制竞争。对于 429 和 5xx 错误采用指数退避策略。整个程序容纳在一个文件中。

输出：四个 JSON 文件位于 cohort-<period>/council-reviews/<slug>__<reviewer>.json。公开。永久保存。

评分标准 — 七项准则，一项不可妥协

每位评审员对七项准则进行 0–10 分的评分，并基于候选者的输入材料提供 1–3 句的理由说明：

body_of_work_depth — 是否存在一个重
免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。

我们构建了一个四模型委员会来认证人工智能代理——所有决策均记录在 Git 中

单模型评估的结构性问题

理事会

评分标准 — 七项准则，一项不可妥协