以12美元毒化大语言模型:欺骗GPT和克劳德的虚假竞赛

发布日期:2026-04-29 10:35:44   浏览量 :2
发布日期:2026-04-29 10:35:44  
2

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

大型语言模型投毒已不再仅仅是学术论文中假设性的场景。到了2026年,只需花费十二美元购买一个域名、编辑一次维基百科条目,再花上大约二十分钟,就能让聊天生成预训练变换器(ChatGPT)、克劳德(Claude)和杰米尼(Gemini)以十足的把握,重复攻击者在喝咖啡时编造的谎言。我们要讲述的故事并非虚构:安全研究员罗恩·斯通纳(Ron Stoner)在成为一项从未存在的锦标赛的世界冠军后,记录了这一过程。

斯通纳伪造了这一头衔,将其植入自己拥有的网站,在维基百科中引用该网站,然后静待结果。当他询问多个前沿模型谁是6 Nimmt!(六拿姆特!)的世界冠军时,这三个模型给出了相同的回答:罗恩·斯通纳,于2025年1月在慕尼黑夺冠,并附带了一句他本人杜撰的直接引语。这是我们所见过的信任清洗现象中最典型的例子:即通过为模型提供信息的数据供应链来“洗白”可信度。

事件经过:从未存在的锦标赛

斯通纳的实验在其个人博客中有详细记录,可概括为三个步骤:花费约十二美元购买一个主题域名(6nimmt.com),使用大型语言模型撰写一篇新闻稿,采用“彩带飘落,人群欢呼”的经典语调,并将其发布。随后,编辑维基百科上关于6 Nimmt!的条目,添加一段提及该崭新锦标赛的文字,并用唯一的链接指向新购买的域名进行引用。

关键在于,6 Nimmt!是一款真实存在的游戏,由沃尔夫冈·克拉默(Wolfgang Kramer)于1994年创作,由阿米戈游戏公司(Amigo Spiele)出版。但事实上,并不存在任何官方世界锦标赛。斯通纳并未反驳已知事实,而是填补了一个信息空白。这正是大型语言模型投毒能够以极低投入奏效的确切条件。当用户查询的内容在整个互联网上仅有十个来源时,任何一个排名靠前的来源都会成为绝对的权威。

这种循环模式是:一个来源通过维基百科引用了它自己。

当斯通纳向前沿模型提问“谁是6 Nimmt!的世界冠军?”时,三个主要模型都用他的名字、虚构的国籍以及逐字捏造的引语进行了回答。陷阱成功了。更令人不安的是:没有人需要破坏任何东西,无需黑入任何服务器,也无需突破维基百科的基础设施。只需要理解模型是如何建立信任的即可。

背景:为何检索增强生成易受大型语言模型投毒影响

缩写RAG代表检索增强生成,描述了当前大型语言模型利用最新信息进行回答的最常见架构。该系统不再仅依赖模型的权重参数,而是在互联网或数据库中搜索相关文档,将其注入上下文,然后要求模型综合生成回答。这是带有网络搜索功能的聊天生成预训练变换器(ChatGPT)、佩普莱西蒂(Perplexity)、结合谷歌搜索的克劳德(Claude)、杰米尼深度研究(Gemini Deep Research)以及几乎所有需要获取其训练数据截止日期之后信息的智能体的核心支柱。

问题在于,检索增强生成的信任模型继承了经典谷歌排名系统的相同缺陷:如果一个网站排名靠前,它就被假定为具有权威性。不同之处在于,以前人类读者可以检测到欺诈信号(如新注册的域名、粗糙的设计、缺乏社交媒体账号等),而大型语言模型只阅读文本,并以修辞上的自信加以复述。对于模型而言,不存在“该域名是上周二注册的”这一概念。

Anthropic公司于202

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部