谷歌云张量处理单元架构版本详解：从第一代到第八代

2026西湖龙井茶官网DTC发售：茶农直供，政府溯源防伪到农户家

云张量处理单元（TPU）各代指南：代际间的变化以及如何为您的工作负载选择合适的版本

图片来源：谷歌云

如果您最近查看过谷歌云张量处理单元（TPU）的定价或文档，您可能已经注意到有许多版本可供选择。TPU v5e、v5p、v6e、Ironwood，以及现在的 TPU 8t 和 8i。每个版本都有不同的规格、不同的用例以及不同的权衡取舍。本文将详细介绍每一代主要的 TPU，分析每一步的变化，以及这些变化对在其上运行工作负载的用户意味着什么。

基本构成：TPU 芯片内部有什么
在逐代介绍之前，了解关键组件会有所帮助，因为这些名称在各个版本中反复出现。

图片来源：谷歌云

矩阵乘法单元（MXU）。这是每个 TPU 张量核心内部的核心计算引擎。它执行驱动神经网络数学运算的乘加操作。在直到 v5p 的大多数 TPU 代际中，MXU 是一个 128x128 的脉动阵列——即 16,384 个乘加器同时工作。从 Trillium（v6e）开始，MXU 扩展至 256x256，使每个周期的操作次数增加了四倍。

张量核心。一个张量核心包含一个或多个 MXU、一个向量处理单元（VPU）和一个标量单元。根据代际不同，单个 TPU 芯片可能拥有一个或两个张量核心。

高带宽内存（HBM）。这是用于存储模型权重和激活值的片上内存。对于大型模型而言，HBM 容量和带宽往往是真正的瓶颈，而非计算能力。每一代产品都带来了更大的 HBM 容量和更快的访问速度。

芯片间互连（ICI）。连接舱内芯片的网络。ICI 带宽决定了芯片在训练期间同步梯度的速度。更高的带宽意味着等待通信的时间更少，而用于计算的时间更多。

稀疏核心。稀疏核心于 TPU v4 中引入，是专门用于嵌入操作的处理器——这类操作驱动着推荐系统和大词汇量模型。v5p 和 Ironwood 每个芯片拥有四个稀疏核心。v6e 则拥有两个。

拓扑结构。指芯片在舱内的连接方式。早期代际使用二维环面结构（芯片连接到四个邻居节点）。从 v4 开始，谷歌转向了用于更大规模舱的三维环面结构，这减少了任意两个芯片之间的最大跳数，并降低了通信延迟。

逐代解析

TPU v1（2015年，仅限内部使用）
第一代 TPU 仅用于一个目的：推理。它并未公开提供，也无法用于训练模型。该芯片包含一个由 8 位乘加器组成的 256x256 脉动阵列，可提供 92 TOPS 的 INT8 算力。其功耗约为 40 瓦，在当时能效表现非常出色。
谷歌 ke

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。