“我是如何发现英伟达 A100 图形处理器上隐藏的 146 瓦功耗，并构建了一个开源修复方案”

我是如何发现英伟达 A100 图形处理器上隐藏的 146 瓦功耗（并构建了一个开源修复方案）

太长不看版：nvidia-smi 报告利用率为 0%，但图形处理器实际功耗为 146 瓦。标准遥测数据具有误导性。我构建了一个开源检测器和一种新的能效基准测试方法（计算能源强度）。

我意识到出问题的时刻

我当时正在英伟达 A100 SXM 图形处理器（使用 RunPod，自费）上运行矩阵乘法基准测试。内核执行完毕后，nvidia-smi 显示：

这不是瞬时峰值。该状态持续了 11 分钟以上。图形处理器锁定在 P0 状态，显存时钟频率卡在 1593 兆赫，在报告“空闲”的同时消耗电力。

我测试了 1 秒、100 毫秒甚至 10 毫秒的采样率——盲点依然存在。

这是一种幽灵异常：物理上不可能的遥测数据，导致集群配置过度、能源浪费以及错误的扩展决策。

我进行了35 项硬件测试（24 块 A100，11 块 H100）并验证了以下结论：

我定义了计算能源强度 = 每秒浮点运算次数 / 焦耳。

参考值：A100 持续单精度浮点运算 → 56.8 亿次浮点运算/焦耳（测试 24，时长 900 秒）。

随后，我构建了人工智能图形处理器能源优化器——一个开源平台，其功能包括：

✅ 所有 40 项平台测试均通过。在线应用程序接口：ai-gpu-brain-v3.onrender.com/docs

云服务提供商和人工智能团队正在为他们无法察觉的电力买单。在拥有 500 块图形处理器的规模下，幽灵浪费导致的隐藏能源和冷却成本每天可能超过150 美元。

该工具是开源的，但我需要赞助的计算资源（在多实例图形处理器分区上的 100-500 块图形处理器）来扩大验证规模并证明投资回报率。我是加拿大不列颠哥伦比亚省的一名独立研究员——迄今为止的所有测试均由我自费完成。

如果您管理图形处理器集群或在云服务提供商工作，请联系我们。

📄 完整白皮书（详细方法论、35 项测试、统计置信度）： github.com/mikebains41-debug/ai-gpu-energy-optimizer-/blob/main/WHITEPAPER.md
💻 GitHub 仓库（开源，采用麻省理工学院许可证的代码）： github.com/mikebains41-debug/ai-gpu-energy-optimizer-
🚀 在线应用程序接口 / Swagger 文档： ai-gpu-brain-v3.onrender.com/docs

标签： gpu ai opensource observability energyefficiency

– 迈克·贝恩斯 (mikebains41@gmail.com)

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。