我的 AI 每条消息发送 30,000 个令牌。其中 80% 都被浪费了。

人工智能 #双子座 #大语言模型 #上下文工程

构建人工智能解决方案很有趣，直到你不得不为它们付费。

我构建了突触，这是一个由知识图谱提供支持、具有深度记忆功能的人工智能伴侣。我的妻子每天使用它进行心理治疗、辅导和反思。这个人工智能了解她的生活、行为模式、目标以及情绪触发点。它能记住数周乃至数月前的事情。

两周前，我接入了 PostHog 来追踪大语言模型的成本。以下是我看到的情况：

两周内产生了 24 美元的费用。四个用户。她的一次会话中，28 条消息就花费了 2.42 美元。仅仅是一次对话。

我查看了令牌细分数据，问题显而易见。每条消息都会发送大约 30,000 个令牌的系统上下文。经过数周的日常使用，她的知识图谱已经变得非常丰富。包括实体、关系、时间事实以及情绪模式。所有这些信息都被编译成一个结构化的文本快照，并注入到每一条消息中。

而这些令牌中的 80% 到 90% 都是在每一轮对话中重复出现的完全相同的编译后知识。

记忆质量很好，但成本结构不行。因此我做了两项更改：我重构了上下文的组装方式，并使用 Gemini 的缓存内容应用程序接口添加了一个显式的缓存层。这两项措施共同将每条消息的成本降低了一半以上。

如果你一直在关注这个系列文章，你就知道背后的故事。如果不知道，这里是简短版本。（完整的技术深入分析见扩展人工智能记忆：我如何通过确定性图检索增强生成驯服 12 万令牌提示词）

突触采用双层方法为人工智能提供长期记忆：

1. 基础编译（工作记忆）。 当会话开始时，突触皮层将知识图谱编译成结构化的文本摘要。包括实体、关系和时间事实。连接最紧密的节点总是会被包含在内。一种水位填充算法将预算上限控制在大约 120,000 个字符（约 3 万个令牌）。这是“始终在线”的上下文。

2. 图检索增强生成（情景回忆）。 当图谱过大超出预算时，第二层会使用混合搜索按轮次检索长尾记忆。它利用编译元数据中的图谱通用唯一识别码来避免重复基础层中已有的内容。零延迟、确定性、无智能体循环。

这在质量方面效果很好。人工智能仍然感觉像是对你了如指掌。但成本方面存在一个缺口：那 3 万个令牌的编译内容在整个会话期间都是相同的文本，却在每条消息中都被作为新的输入令牌计费。

在一个包含 28 条消息的会话中，仅基础知识部分就产生了 28 x 3 万 = 84 万个令牌。其中几乎全部都是重复内容。

在此次更改之前，凸面数据库端（前端后端）的上下文组装流程如下：

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。