“我是如何发现英伟达 A100 图形处理器上隐藏的 146 瓦功耗,并构建了一个开源修复方案”

发布日期:2026-05-20 10:35:54   浏览量 :2
发布日期:2026-05-20 10:35:54  
2

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

我是如何发现英伟达 A100 图形处理器上隐藏的 146 瓦功耗(并构建了一个开源修复方案)

太长不看版:nvidia-smi 报告利用率为 0%,但图形处理器实际功耗为 146 瓦。标准遥测数据具有误导性。我构建了一个开源检测器和一种新的能效基准测试方法(计算能源强度)。

我意识到出问题的时刻

我当时正在英伟达 A100 SXM 图形处理器(使用 RunPod,自费)上运行矩阵乘法基准测试。内核执行完毕后,nvidia-smi 显示:

  • 图形处理器利用率: 0%
  • 功耗: 146.66 瓦

这不是瞬时峰值。该状态持续了 11 分钟以上。图形处理器锁定在 P0 状态,显存时钟频率卡在 1593 兆赫,在报告“空闲”的同时消耗电力。

我测试了 1 秒、100 毫秒甚至 10 毫秒的采样率——盲点依然存在。

这是一种幽灵异常:物理上不可能的遥测数据,导致集群配置过度、能源浪费以及错误的扩展决策。

我采取的应对措施

我进行了35 项硬件测试(24 块 A100,11 块 H100)并验证了以下结论:

  • A100 的空闲功耗底线约为 67 瓦,但在 0% 利用率下,幽灵功耗可高达146 瓦
  • H100 未出现幽灵功耗——该问题是 A100 特有的(可能在霍珀架构中已修复)。
  • 英伟达自己的多实例图形处理器文档承认:“不支持对共享图形处理器资源进行性能分析。”我的工具填补了这一空白。

我定义了计算能源强度 = 每秒浮点运算次数 / 焦耳。

参考值:A100 持续单精度浮点运算 → 56.8 亿次浮点运算/焦耳(测试 24,时长 900 秒)。

随后,我构建了人工智能图形处理器能源优化器——一个开源平台,其功能包括:

  • 实时检测去同步/幽灵异常。
  • 提供跨越 17 多家云服务提供商(亚马逊云科技、谷歌云平台、微软 Azure、RunPod 等)的计算能源强度基准测试。
  • 与 Kubernetes / Run:ai 集成以实现自动驱逐。
  • 通过单个 docker-compose up 命令即可部署。

✅ 所有 40 项平台测试均通过。在线应用程序接口:ai-gpu-brain-v3.onrender.com/docs

为何这很重要

云服务提供商和人工智能团队正在为他们无法察觉的电力买单。在拥有 500 块图形处理器的规模下,幽灵浪费导致的隐藏能源和冷却成本每天可能超过150 美元

该工具是开源的,但我需要赞助的计算资源(在多实例图形处理器分区上的 100-500 块图形处理器)来扩大验证规模并证明投资回报率。我是加拿大不列颠哥伦比亚省的一名独立研究员——迄今为止的所有测试均由我自费完成。

如果您管理图形处理器集群或在云服务提供商工作,请联系我们。

资源

标签: gpu ai opensource observability energyefficiency

– 迈克·贝恩斯 (mikebains41@gmail.com)

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部