张量处理单元与图形处理单元：定义、差异及各自适用的工作负载

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

如果您曾在谷歌云上使用过机器学习，您一定面临过这样的选择：是选用图形处理器实例还是张量处理单元？大多数团队默认选择图形处理器，因为这是他们已熟悉的技术。但随着推理成本的上升以及张量处理单元工具链的成熟，深入了解每种芯片的实际功能以及何时一种芯片优于另一种变得尤为重要。

本文介绍了图形处理器和张量处理单元的定义、工作原理，以及各自更适合处理的工作负载。文章最后还展望了谷歌当前的张量处理单元产品阵容，包括在 2026 年谷歌云 NEXT 大会上发布的第八代芯片。

张量处理单元为何应运而生

图片来源：谷歌云

图形处理器最初是为渲染视频游戏而设计的。由于底层数学运算（大规模并行浮点运算）相同，它们能很好地处理人工智能工作负载。研究人员在 2012 年左右发现了这一点，此后图形处理器成为训练神经网络的首选硬件。

谷歌在 2013 年遇到了一个难题。谷歌大脑团队的工程师计算出，如果每位安卓用户每天仅使用三分钟语音搜索，谷歌就需要将其全球数据中心容量翻倍。在当时的大规模下，使用通用图形处理器进行推理成本过高且功耗巨大。

他们的解决方案是设计一款专门用于神经网络数学运算的芯片。首款张量处理单元于 2015 年在谷歌的数据中心投入生产。谷歌于 2018 年向公众提供云端张量处理单元服务。其核心理念——剔除图形处理器因图形起源而携带的所有冗余功能，完全专注于矩阵乘法——至今仍是每一代张量处理单元的设计驱动力。

图形处理器的工作原理

图片来源：谷歌云。部分图形处理器图像。

图形处理器是一种拥有数千个小型核心的并行处理器。中央处理器通常拥有 8 到 64 个强大的通用核心，而高端图形处理器（如英伟达 H100）则拥有数千个较小的核心，能够同时在多个数据点上执行相同的指令。这被称为单指令多数据流并行处理。

图形处理器支持广泛的精度格式：单精度浮点数、半精度浮点数、脑浮点格式、8 位整数、8 位浮点数。它们运行派托奇、 TensorFlow 、贾克斯、统一计算设备架构库、模拟程序以及渲染管线。这种广泛的支持虽然有用，但也意味着图形处理器包含了用于纹理映射、分支预测以及其他在矩阵乘法期间完全闲置的操作的硬件。

英伟达 H100 在封装内集成了 80GB 的高带宽内存 2e。对于人工智能工作负载而言，内存带宽至关重要，因为数据在内存与计算单元之间的传输往往是限制吞吐量的瓶颈，而非原始数学运算能力。

张量处理单元的工作原理

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。