一个兔子洞演变成了一门系统编程语言。初步基准测试显示,在实际代码中消耗的(人工智能)令牌减少了60%。

发布日期:2026-04-24 09:22:00   浏览量 :2
发布日期:2026-04-24 09:22:00  
2

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

郑重声明:我倾向于漫谈,常常无法完整表达想法,并且非常擅长构造冗长的连写句。与人工智能代理协作帮助我提高了生产力,并更好地组织我的思路和精力。因此,在这个项目中我与人工智能进行了合作,为了对那些思维过程更有条理的人公平起见,我将所有想法整合在一起,并让人工智能生成了下面这篇更简洁的文章。我不会使用人工智能来回答你们的任何问题,但我认为一篇初始文章应该比我典型的思维倾泻更有结构。

我想坦率地说明一点:我不是专业程序员。我是一名自动化工程师。在我的职业生涯中,我断断续续地编写过脚本和代码——足以完成工作,但还不足以称其为我的全职工作。

最近发生变化的是代理式人工智能。我开始使用人工智能代理来帮助自动化部分工作,效率的提升是真实且立竿见影的。这段经历让我陷入了一条未曾预料的兔子洞(比喻深入探索的复杂情境)。

这条兔子洞并非始于编程语言。它始于人类语言——具体来说,是口语交流中的信息密度。我当时正在阅读关于不同语言在给定语音单位中承载多少语义内容的研究。有些语言比其他语言更密集。每个音节的信息比率存在显著且可衡量的差异。这让我开始思考:如果我们可以衡量口语中的信息密度,那么编程语言看起来会是怎样的?更具体地说——对于人工智能实际处理的词元(tokens)来说,情况又是如何?

从此,问题迅速聚焦。人工智能代理正在帮助我编写代码。但我不断观察到它们犯某一类特定的错误——不是语法错误,那些太无聊了。而是更微妙的错误。隐藏的副作用。被静默吞没的错误。深埋在注释中的前置条件,当模型需要时却永远找不到。代码在语法上是正确的,但在语义上是错误的,而该语言没有给代理提供任何识别更好的方法。这种歧义是结构性的。

因此,我开始构建“坎多”(Candor)。并不是因为我计划构建一种编程语言,而是因为这条兔子洞的尽头就在那里。

理念:减少歧义,降低成本

最初的目标很简单:创造一种语言,使得无论是人类还是人工智能代理都无法隐藏代码的实际行为。声明每一个副作用。处理每一个错误。使每一个前置条件都可被机器读取。如果一种语言对于人类审查者来说是无歧义的,那么对于编写它的模型来说也是无歧义的——原因相同。

我没有预料到——而且在我开始使用人工智能代理构建编译器本身的那一刻变得显而易见的是——歧义和词元成本是从两个不同角度看的同一个问题。

当一种语言强制你编写 24 个词元的样板代码来传播错误时,这 24 个词元携带零语义信息。模型必须通读它们才能了解一件事:“如果失败,则返回错误。”每一个词元都消耗计算资源。每一个词元都消耗电力。每一个词元都意味着图形处理器周期、内存带宽和热量。在人工智能辅助开发所迈向的规模下——代理循环、多模型管道、持续的人工智能驱动迭代——这些成本累积成了实质性的影响。

就在那时,词元效率的问题从“锦上添花”变成了设计的核心。

我进行了测量

我针对 claude-sonnet-4-6 使用了 Anthropic 的 count_tokens 应用程序接口——这与克劳德在处理代码时实际使用的分词器相同。这不是近似值。而是真实的应用程序接口调用,减去了基线开销,结果保存为带时间戳的 JSON 格式。

我测量了“坎多”中的每一个关键字。每一个运算符。每一种常见的签名模式。

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部