提示注入是无状态的，记忆投毒则是持久化的

在过去两年中，人工智能安全讨论主要围绕无状态妥协展开。

你能在一次会话中突破模型的限制吗？
你能将恶意指令注入到检索内容中吗？
你能让助手立即泄露信息、忽略规则或调用错误的工具吗？

这些问题仍然重要。

但它们开始属于该问题的早期阶段。

现在更有趣的风险是持久性。

问题不在于攻击者是否能一次性操纵智能体。

而在于他们是否能操纵智能体记忆的内容，并使这种操纵影响到未来的决策。

这就是记忆投毒带来的转变。

提示词注入是无状态的。记忆投毒是持久性的。

而持久性完全改变了安全模型。

为什么这感觉与经典的提示词注入不同

传统的提示词注入很危险，但它通常具有时间局限性。

一条恶意指令出现在文档、电子邮件、网页、支持工单或检索片段中。模型读取它，感到困惑或被操纵，并在那次交互中产生不良结果。

这已经够糟糕了。

但在最简单的情形下，攻击必须反复出现。敌对文本需要被再次检索。会话需要保持活跃。利用压力必须持续存在。

记忆投毒则不同。

其目标不仅仅是影响当前的响应。其目标是通过改变系统存储为可信记忆、偏好、摘要、经验教训、事实、成功模式或持久上下文的内容，来影响系统未来的行为。

一旦发生这种情况，攻击就不再是一个事件，而变成了一种状态。

这是一个严重得多的架构问题。

因为记忆使智能体更有用。

团队希望助手能够记住用户偏好、重复性任务、项目背景、过去的修正、成功的工作流程、可信来源、重要文档以及之前的决策。他们希望跨会话保持连续性。他们希望智能体感觉不像无状态的聊天机器人，而更像自适应系统。

因此，记忆以多种形式被添加：

所有这些都提高了性能和可用性。

这也提出了一个新的问题：

当被持久化的内容是错误的、被操纵的、对抗性的、过时的或战略性植入的，会发生什么？

这就是记忆投毒的核心。

这是团队需要做出的概念性跳跃。

无状态助手主要在单次交互边界内失效。而具备记忆功能的智能体可能会跨时间失效。

这意味着安全边界不再仅仅是：

它变成了：

换句话说，你不再仅仅是在防御推理过程。你是在防御状

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。