RBF注意力机制揭示点积运算中隐藏的范数偏差

发布日期:2026-04-02 10:02:59   浏览量 :1
发布日期:2026-04-02 10:02:59  
1

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

将点积注意力替换为径向基函数注意力听起来像是一场架构革命。但在拉斐尔·皮索尼的实验中,结果却更加奇特:这实际上只是一个单行代数微调,却在悄然复现现代变换器一半的“神秘”行为——同时还在过程中打破了硬件栈。

简而言之

  • 径向基函数注意力本质上就是点积注意力加上对键向量显式的平方 L2 惩罚;这种“新”的几何结构其实早已隐含在缩放点积注意力(SDPA)之中。
  • 一旦改变度量方式,你就不得不直面整个技术栈中所有围绕点积硬编码的假设:包括旋转位置编码(RoPE)、注意力汇聚点、融合内核,甚至你调试训练的方式。
  • 使用径向基函数注意力的正确方式是将其作为一种诊断手术刀:借鉴其归纳偏置(如范数惩罚、基于距离的相似性),而不必承担彻底替换所带来的全部工程代价。

径向基函数注意力其实就是点积注意力加上对键向量的 L2 惩罚

皮索尼的数学技巧是关键:从基于距离的得分出发,而非点积:

[
\text{score}(q,k) = -\gamma\lVert q - k\rVert^2
]

并展开:

[
-\lVert q - k\rVert^2 = -\lVert q\rVert^2 + 2 q\cdot k - \lVert k\rVert^2
]

对键向量进行 Softmax 运算是平移不变的,因此对于固定的查询向量,(-\lVert q\rVert^2) 项只是一个常数偏移,会被消去。剩下的就是:

[
\text{softmax}(-\gamma\lVert q - k\rVert^2) \equiv \text{softmax}(2\gamma\,q\cdot k - \gamma\lVert k\rVert^2)
]

因此,缩放后的径向基函数注意力在代数上等价于:

  • 常规的点积注意力项(q\cdot k),再加上
  • 一个内置的 L2 惩罚项,会抑制大范数键向量的得分。

第一个不那么明显的推论是:你并不需要一种全新的注意力原语来获得“径向基函数效应”。你可以继续使用缩放点积注意力(SDPA),只需为每个键向量显式添加一个 (-\lambda\lVert k\rVert^2) 的得分偏置即可。PyTorch 的FlexAttention 正是为了让你能够注入这类得分修改,同时仍能编译成类似 FlashAttention 的高效实现。

这意味着,“基于距离的注意力”与其说是一类独立的方法,不如说是对点积注意力已有几何结构的一种重新参数化

真正的问题变成了:这个对键向量范数的惩罚究竟会对模型的行为产生什么影响?

为何对键向量范数施加惩罚会改变注意力的几何结构

在标准的点积注意力中,得分为:

[
\text{score}(q,k) = \frac{q\cdot k}{\sqrt{d_k}}
]

从几何角度看,这相当于“余弦相似度乘以向量模长”。即使某个键向量与查询向量方向并不一致,只要其范数足够大,依然可以“胜出”——皮索尼称之为“模长霸凌”。

我们早已知道网络会依赖这一点。注意力汇聚点现象(例如 StreamingLLM 中的汇聚点以及标点符号汇聚点)表明,模型会刻意让少数标记拥有极大的范数,以便在没有其他相关内容时吸收概率质量。这种技巧之所以存在,正是因为当前的评分规则奖励大范数。

而径向基函数注意力则悄然废除了这一技巧:

  • 得分被上限约束(最大值出现在距离为零时),因此你无法通过无限增大范数来获得无界的 logits。
  • 大范数键向量会在所有查询中受到惩罚,而不仅限于某一个查询。异常值键向量需支付全局性的“税”。

这对注意力的“形状”产生了两方面影响:

  1. 局部性变得字面化。 “相似”现在真正意味着“在欧几里得空间中距离接近”,而不再是“在某个轴上的投影很大”。你正在引导模型倾向于聚类且具有度量意义的表示。

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部