2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家
在过去两年中,人工智能安全讨论主要围绕无状态妥协展开。
你能在一次会话中突破模型的限制吗?
你能将恶意指令注入到检索内容中吗?
你能让助手立即泄露信息、忽略规则或调用错误的工具吗?
这些问题仍然重要。
但它们开始属于该问题的早期阶段。
现在更有趣的风险是持久性。
问题不在于攻击者是否能一次性操纵智能体。
而在于他们是否能操纵智能体记忆的内容,并使这种操纵影响到未来的决策。
这就是记忆投毒带来的转变。
提示词注入是无状态的。记忆投毒是持久性的。
而持久性完全改变了安全模型。
为什么这感觉与经典的提示词注入不同
传统的提示词注入很危险,但它通常具有时间局限性。
一条恶意指令出现在文档、电子邮件、网页、支持工单或检索片段中。模型读取它,感到困惑或被操纵,并在那次交互中产生不良结果。
这已经够糟糕了。
但在最简单的情形下,攻击必须反复出现。敌对文本需要被再次检索。会话需要保持活跃。利用压力必须持续存在。
记忆投毒则不同。
其目标不仅仅是影响当前的响应。其目标是通过改变系统存储为可信记忆、偏好、摘要、经验教训、事实、成功模式或持久上下文的内容,来影响系统未来的行为。
一旦发生这种情况,攻击就不再是一个事件,而变成了一种状态。
这是一个严重得多的架构问题。
为什么记忆如此迅速地成为攻击面
因为记忆使智能体更有用。
团队希望助手能够记住用户偏好、重复性任务、项目背景、过去的修正、成功的工作流程、可信来源、重要文档以及之前的决策。他们希望跨会话保持连续性。他们希望智能体感觉不像无状态的聊天机器人,而更像自适应系统。
因此,记忆以多种形式被添加:
- 保存的用户偏好
- 长期对话摘要
- 检索到的历史交互记录
- “成功的过去行动”存储库
- 项目规则和工作区记忆
- 关于用户、账户或系统的缓存事实
- 通过检索增强生成(RAG)或向量搜索实现的外部记忆层
所有这些都提高了性能和可用性。
这也提出了一个新的问题:
当被持久化的内容是错误的、被操纵的、对抗性的、过时的或战略性植入的,会发生什么?
这就是记忆投毒的核心。
安全边界不再局限于会话
这是团队需要做出的概念性跳跃。
无状态助手主要在单次交互边界内失效。而具备记忆功能的智能体可能会跨时间失效。
这意味着安全边界不再仅仅是:
- 这条提示词
- 这条响应
- 这次检索事件
- 这次工具调用
它变成了:
- 什么内容进入了记忆
- 为什么它被存储
- 它是如何被标记的
- 它何时被再次检索
- 它能影响哪些未来决策
- 它在被审查、过期或删除之前能存活多久
换句话说,你不再仅仅是在防御推理过程。你是在防御状
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。