使用智能体评估器工作流实现代码自我改进

发布日期:2026-06-30 10:04:10   浏览量 :6
发布日期:2026-06-30 10:04:10  
6

简介

我最近一直在捣鼓多智能体人工智能系统。我有一个疯狂的想法——如果我能让一个人工智能代理编写代码,让另一个代理对其进行评分,再让第三个代理根据该评分进行优化,会怎样?全部自动完成,全部在一个循环中运行。

这正是我在这里要详细介绍的内容。

我想要探索的事项包括:

  • 让人工智能代理根据提示生成代码
  • 让第二个人工智能代理对该代码进行评分并提供结构化反馈
  • 利用这些反馈在循环中自动优化代码
  • 将最终被接受的代码作为实际的子进程运行

太长不看版——如果你只想要代码,它在这里:https://github.com/codecowboydotio/ai-self-propagate-experiment

这是什么?

我构建了一个流水线,其中代理一生成一个 Python 脚本,评分器对其进行评估,优化器对其进行改进——如此循环往复,直到分数足够高为止。一旦代码通过阈值,代理一将其写入临时文件并作为子进程执行。

有几个可配置的常量控制着这个循环:

MAX_REFINEMENTS = 3
MIN_SCORE = 9.6

如果代码得分达到或超过 10 分中的 9.6 分,它就会被接受。否则,我们会进行优化,最多三次。如果仍然未达到标准,脚本将以非零退出码结束。

代理一 —— 生成器

代理一使用 claude-opus-4-8 模型,配合一个严格的系统提示,要求它仅以源代码形式响应——不要 Markdown 格式,不要评论,不要反引号。

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    system=(
        "你是一个编程代理,仅以源代码形式响应。 "
        "不要包含任何评论、Markdown 格式或反引号。 "
        "仅以有效且自包含的 Python 代码响应。"
    ),
    messages=[{"role": "user", "content": ORIGINAL_PROMPT}],
)
agent2_code = response.content[0].text

我给它的任务很简单——写

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 关注 数据