超越暴力破解:人工智能推理作为平衡点

发布日期:2026-06-03 10:04:07   浏览量 :16
发布日期:2026-06-03 10:04:07  
16

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

在任何学科中,都存在这样一个时刻:一个想法不再仅仅是一群人的灵光一现,而是开始显得不可避免。表明这种情况正在发生的最明显迹象之一是,两个互不相识、互不引用且在不同城市工作的团队,几乎在同一时间得出了相同的结论。当两个人独立地产生相同的想法时,通常是因为这个想法在空气中已经“成熟”了。本周,在人工智能最活跃的领域之一——语言模型如何进行推理——发生了类似的事情。

两个独立的团队——一个在南加州大学(USC),另一个在卡内基梅隆大学(CMU)——几乎并行地提出了同一种理解人工智能推理的方式:思考不应被视为一种搜索,而应被视为向平衡点的坠落。为了理解为什么这很有趣,首先值得回顾一下我们的起点。

问题:让人工智能“多思考”成本高昂

如今,当我们要求模型解决难题时,最常见的技巧是让它“多思考”。而在实践中,“多思考”几乎总是意味着同一件事:生成许多不同的回答,并保留最好的那个。这是一种暴力破解方法。它的效果好得令人惊讶,但存在两个问题。它很昂贵——每次尝试都消耗算力,即金钱和能源——而且它不能保证任何结果:花费双倍的资源并不能给你带来双倍质量的回答。这就像通过随机试门来寻找钥匙:只要有足够的尝试次数,你或许能碰巧找到,但没有人能保证你在逐步改进。

这种方法在行话中有一个名称:测试时扩展(test-time scaling)。研究人员希望解决的问题正是这一点:能否投入更多的努力,并确保每一步都让你更接近正确答案,而不是仅仅给你另一张彩票?

三篇论文,逐一解读

本周的三篇论文交汇于这个问题。在探讨它们如何共同讲述一个故事之前,值得先分别了解它们。

1. 理论:推理就是落入山谷

平衡推理器(Equilibrium Reasoners),作者来自卡内基梅隆大学(本豪·黄、郑阳·耿和齐科·科尔特)。

推理就像一颗弹珠沿着山谷景观滚落,直到到达底部的正确答案

这些作者提出了一种非常直观的图像。想象一个充满山谷和山丘的地形。你将一颗弹珠从任意点释放,在无人推动的情况下,它会滚动到最近山谷的底部并静止在那里。弹珠停留的这个点有一个技术名称:吸引子,即系统倾向于自发达到的稳定状态。

该提议是训练模型以构建一个地形,其中山谷的底部就是正确答案。如果成功,推理就不再是盲目搜索,而是变成让弹珠落下:每一次迭代都使其离底部更近一点。其巧妙之处在于,收敛不再是一种希望,而成为系统的一种属性:更多的努力确实等同于更接近目标。而且由于底部可以自我识别(弹珠停止移动),因此不需要外部裁判

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据