我用完了在安索皮克组织的额度,等了三天。然后我构建了大型语言模型舰队。

发布日期:2026-05-21 10:02:09   浏览量 :0
发布日期:2026-05-21 10:02:09  
0

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

周二下午,我启动了一项重新评分任务。大约 18,000 个提示词针对 claude-opus-4-7 模型进行处理,使用了八个 worker(工作进程),每个进程都尽可能快地循环调用 messages.create

四十分钟后,每个请求开始返回 429 状态码,并附带一个显示 anthropic-ratelimit-tokens-remaining: 0 的响应头。我想,好吧,那就退避一下。我将 worker 数量减少到四个并等待。仍然是 429。再减到两个。还是 429。

随后我注意到,配额清除的时间戳并不是以分钟计的固定值,而是动态滚动的。我已经用完了整个组织的每日令牌预算,而每日时间窗口不会在五分钟内重置。

我给支持团队发了邮件。他们在周三早上确认了收到请求。直到周五下午才清除了配额限制。整整 72 小时。

在那之后,我不敢声称我的工程方案有多优雅。我坐在那里,刷新仪表盘等了三天。当配额限制最终解除后,我构建了 llmfleet,这样我就再也不用干坐着等待了。

功能介绍

llmfleet 是一个用于 messages.create 的池化调度器。你只需提供一组消息负载和一个并发上限,它便会以背压机制运行这些请求,该机制同时兼顾两个因素:正在进行的请求数量,以及最新的 anthropic-ratelimit-tokens-remaining 响应头。

受桑德勒销售法启发的部分是“协商”机制。池化调度器不再依赖硬性的信号量,而是监控 API 返回的信息。如果剩余令牌数低于某个阈值,正在进行的槽位会被保留,直到时间窗口跳动更新。无需疯狂地重试 429 错误。

import asyncio
from llmfleet import Fleet

fleet = Fleet(
    api_key=os.environ["ANTHROPIC_API_KEY"],
    max_in_flight=8,
    soft_token_floor=20_000,   # 低于此值时暂停新调度
    hard_token_floor=2_000,    # 完全停止,直到下一个时间窗口
)

payloads = [
    {"model": "claude-opus-4-7", "max_tokens": 256,
     "messages": [{"role": "user", "content": prompt}]}
    for prompt in prompts

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部