超越暴力破解：人工智能推理作为平衡点

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

在任何学科中，都存在这样一个时刻：一个想法不再仅仅是一群人的灵光一现，而是开始显得不可避免。表明这种情况正在发生的最明显迹象之一是，两个互不相识、互不引用且在不同城市工作的团队，几乎在同一时间得出了相同的结论。当两个人独立地产生相同的想法时，通常是因为这个想法在空气中已经“成熟”了。本周，在人工智能最活跃的领域之一——语言模型如何进行推理——发生了类似的事情。

两个独立的团队——一个在南加州大学（USC），另一个在卡内基梅隆大学（CMU）——几乎并行地提出了同一种理解人工智能推理的方式：思考不应被视为一种搜索，而应被视为向平衡点的坠落。为了理解为什么这很有趣，首先值得回顾一下我们的起点。

问题：让人工智能“多思考”成本高昂

如今，当我们要求模型解决难题时，最常见的技巧是让它“多思考”。而在实践中，“多思考”几乎总是意味着同一件事：生成许多不同的回答，并保留最好的那个。这是一种暴力破解方法。它的效果好得令人惊讶，但存在两个问题。它很昂贵——每次尝试都消耗算力，即金钱和能源——而且它不能保证任何结果：花费双倍的资源并不能给你带来双倍质量的回答。这就像通过随机试门来寻找钥匙：只要有足够的尝试次数，你或许能碰巧找到，但没有人能保证你在逐步改进。

这种方法在行话中有一个名称：测试时扩展（test-time scaling）。研究人员希望解决的问题正是这一点：能否投入更多的努力，并确保每一步都让你更接近正确答案，而不是仅仅给你另一张彩票？

三篇论文，逐一解读

本周的三篇论文交汇于这个问题。在探讨它们如何共同讲述一个故事之前，值得先分别了解它们。

1. 理论：推理就是落入山谷

平衡推理器（Equilibrium Reasoners），作者来自卡内基梅隆大学（本豪·黄、郑阳·耿和齐科·科尔特）。

这些作者提出了一种非常直观的图像。想象一个充满山谷和山丘的地形。你将一颗弹珠从任意点释放，在无人推动的情况下，它会滚动到最近山谷的底部并静止在那里。弹珠停留的这个点有一个技术名称：吸引子，即系统倾向于自发达到的稳定状态。

该提议是训练模型以构建一个地形，其中山谷的底部就是正确答案。如果成功，推理就不再是盲目搜索，而是变成让弹珠落下：每一次迭代都使其离底部更近一点。其巧妙之处在于，收敛不再是一种希望，而成为系统的一种属性：更多的努力确实等同于更接近目标。而且由于底部可以自我识别（弹珠停止移动），因此不需要外部裁判

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。