谷歌云张量处理单元架构版本详解:从第一代到第八代

发布日期:2026-05-01 10:35:36   浏览量 :1
发布日期:2026-05-01 10:35:36  
1

2026西湖龙井茶官网DTC发售:茶农直供,政府溯源防伪到农户家 

云张量处理单元(TPU)各代指南:代际间的变化以及如何为您的工作负载选择合适的版本

图片来源:谷歌云

如果您最近查看过谷歌云张量处理单元(TPU)的定价或文档,您可能已经注意到有许多版本可供选择。TPU v5e、v5p、v6e、Ironwood,以及现在的 TPU 8t 和 8i。每个版本都有不同的规格、不同的用例以及不同的权衡取舍。本文将详细介绍每一代主要的 TPU,分析每一步的变化,以及这些变化对在其上运行工作负载的用户意味着什么。

基本构成:TPU 芯片内部有什么
在逐代介绍之前,了解关键组件会有所帮助,因为这些名称在各个版本中反复出现。

图片来源:谷歌云

矩阵乘法单元(MXU)。这是每个 TPU 张量核心内部的核心计算引擎。它执行驱动神经网络数学运算的乘加操作。在直到 v5p 的大多数 TPU 代际中,MXU 是一个 128x128 的脉动阵列——即 16,384 个乘加器同时工作。从 Trillium(v6e)开始,MXU 扩展至 256x256,使每个周期的操作次数增加了四倍。

张量核心。一个张量核心包含一个或多个 MXU、一个向量处理单元(VPU)和一个标量单元。根据代际不同,单个 TPU 芯片可能拥有一个或两个张量核心。

高带宽内存(HBM)。这是用于存储模型权重和激活值的片上内存。对于大型模型而言,HBM 容量和带宽往往是真正的瓶颈,而非计算能力。每一代产品都带来了更大的 HBM 容量和更快的访问速度。

芯片间互连(ICI)。连接舱内芯片的网络。ICI 带宽决定了芯片在训练期间同步梯度的速度。更高的带宽意味着等待通信的时间更少,而用于计算的时间更多。

稀疏核心。稀疏核心于 TPU v4 中引入,是专门用于嵌入操作的处理器——这类操作驱动着推荐系统和大词汇量模型。v5p 和 Ironwood 每个芯片拥有四个稀疏核心。v6e 则拥有两个。

拓扑结构。指芯片在舱内的连接方式。早期代际使用二维环面结构(芯片连接到四个邻居节点)。从 v4 开始,谷歌转向了用于更大规模舱的三维环面结构,这减少了任意两个芯片之间的最大跳数,并降低了通信延迟。

逐代解析

TPU v1(2015年,仅限内部使用)
第一代 TPU 仅用于一个目的:推理。它并未公开提供,也无法用于训练模型。该芯片包含一个由 8 位乘加器组成的 256x256 脉动阵列,可提供 92 TOPS 的 INT8 算力。其功耗约为 40 瓦,在当时能效表现非常出色。
谷歌 ke

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
支持 反馈 订阅 数据
回到顶部