我如何构建一个 Go 语言代理，在云端配额耗尽时保持你的大语言模型对话活跃

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

简介
如果你曾在与克劳德或吉皮蒂对话时遇到配额限制，不得不切换到本地奥拉马模型，那你一定深知其中的痛苦。本地模型没有任何上下文。这就像迟到45分钟才走进会议室，而没有人向你同步之前的进展。
我因此感到足够沮丧，决定构建一个解决方案。这个方案就是特鲁珀。

什么是特鲁珀
特鲁珀是一个轻量级的戈语言代理（约850行代码，两个文件），位于你的应用程序和大语言模型提供商之间。当云提供商返回配额错误（429、402、529）时，特鲁珀会自动回退到本地奥拉马实例，且不会丢失对话上下文。
单一可执行文件。零依赖。由于它位于你的应用程序接口密钥之前，因此易于审计。

真正的问题：回退时的上下文丢失
大多数回退代理解决了路由问题，却忽略了上下文问题。它们要么原封不动地传递原始消息历史（这会撑爆本地模型的上下文窗口），要么截断最早的对话轮次（这会破坏连续性）。
这两种方式在实际使用中效果都不佳。

解决方案：三层上下文压缩
特鲁珀在移交给奥拉马之前，会使用一种结构化的压缩策略：
锚点：对话的前两轮始终被保留。这些内容确立了最初的意图并奠定了基调。
态势报告：中间的对话轮次被压缩成一个称为“态势报告”的结构化摘要。它提取意图、实体、未决事项、最近的操作以及已解决的项目。本地模型获得的是情境感知能力，而非原始历史记录。
尾部：最近的对话轮次会在可配置的令牌预算内被保留。

日志中真实的态势报告如下所示：

📦  触发上下文压缩 — 538个令牌超过500的预算
📦  上下文压缩完成
    总轮次       : 7
    锚点轮次     : 2 (~43个令牌)
    中间轮次     : 2 → 态势报告 (~71个令牌)
    最近轮次     : 3 (~323个令牌)
    已用令牌     : 437 / 500
    态势报告     : 意图="特鲁珀" 阶段=不明确 置信度=0.60 未决=1 操作=0 已解决=0

本地模型知道你在做什么、哪里出了问题、哪些已解决，以及最后几次交流的内容。这足以保持对话的连贯性。

为什么选择戈语言
单一可执行文件分发是主要原因。无需运行时环境，无依赖，将其放置在任何地方即可运行。代码库仅约850行，也意味着任何人都可以在一个下午读完全部代码——对于代理应用程序接口密钥的工具来说，这一点至关重要。

提供商支持
特鲁珀目前支持克劳德、杰米尼和开放人工智能作为云提供商，并可自动回退到奥拉马。提供商链可通过环境变量进行配置。

下一步计划
V3.0版本专注于基础加固——修复并发问题并改进错误处理。V3.1版本将提高长对话中态势报告的提取质量，目前意图检测在长对话中开始出现退化。

尝试使用
github.com/shouvik12/trooper
非常欢迎关于上下文压缩方法的反馈——尤其是来自运行大型本地模型的用户。你在回退时的冷启动延迟是多少？

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。