TPU的历史以及这一切的起源?
谷歌张量处理单元(TPU)的故事并非始于芯片制造的突破,而是始于对数学和物流的认识。大约在2013年,谷歌的领导层——特别是杰夫·迪恩、乔纳森·罗斯(Groq的CEO)和谷歌大脑团队——发布了一个令他们震惊的预测。他们计算出,如果每个安卓用户每天只使用谷歌的语音搜索功能三分钟,谷歌就需要将全球数据中心容量翻倍以应对计算负载。
当时,谷歌依赖标准CPU和GPU完成这些任务。虽然功能强大,但这些通用芯片在深度学习所需的特殊繁重任务——大规模矩阵乘法方面效率低下。用现有硬件进行扩展将是财务和后勤上的噩梦。
这激发了一个新项目。谷歌决定做一件软件公司罕见的事:打造自己的定制硅片。目标是创建一个仅用于运行 TensorFlor:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫 神经网络的ASIC(专用集成电路)。
关键历史里程碑:
2013-2014年:项目进展非常迅速,谷歌不仅聘请了一支非常有能力的团队,而且坦白说,他们在第一步也取得了一些运气。团队从设计概念到在数据中心部署硅片仅用了15个月——对硬件工程来说是一个非常短的周期。
2015年:在世界还未意识到它们存在之前,TPU已经为谷歌最受欢迎的产品提供动力。它们默默加速了谷歌地图导航、谷歌相册和谷歌翻译。
2016年:谷歌在Google I/O 2016上正式发布了TPU。
解决“数据中心双重”问题的紧迫性正是TPU存在的原因。它不是为卖给玩家或渲染视频而设计的;它的诞生是为了拯救谷歌免于自身的人工智能成功。考虑到这一点,谷歌已经思考“代价高昂”的人工智能推理问题十多年了。这也是TPU相较于其他ASIC项目表现优异的主要原因之一。
TPU和GPU的区别是什么?
要理解它们的区别,最好看看每个芯片最初的设计目的。GPU是一种“通用”并行处理器,而TPU则是“域专用”架构。
这些GPU是为图形设计的。它们擅长并行处理(同时处理多项任务),这对人工智能非常有利。然而,由于它们设计用于处理从电子游戏纹理到科学模拟的各种内容,因此背负着“建筑包袱”。他们在缓存、分支预测和管理独立线程等复杂任务上花费大量能量和芯片空间。
而TPU则剥离了所有这些包袱。它没有光栅化或纹理映射的硬件。相反,它采用了一种独特的架构,称为收缩阵列。
“收缩阵列”是关键的区别。在标准的CPU或GPU中,芯片在每次计算时都会在内存和计算单元之间来回传递数据。这种持续的洗牌造成瓶颈(冯·诺依曼瓶颈)。
在TPU的收缩阵列中,数据像血液流经心脏一样流经芯片(因此得名“收缩压”)。
它只加载一次数据(权重)。
它通过一个庞大的乘数网格传递输入。
数据直接传递到数组中的下一个单元,无需写回内存。
本质上,这意味着由于TPU的systolic阵列,大幅减少了从HBM读取和写入所需的内存数量。因此,TPU可以花周期进行计算,而不必等待数据。
谷歌的新TPU设计,也称为Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood,也解决了TPU缺乏的一些关键方面:
他们增强了 SparseCore 以高效处理大型嵌入(适合推荐系统和大型语言模型)
它提升了 HBM 的容量和带宽(每颗芯片最高可达 192 GB)。为了更好地理解,英伟达的Blackr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ell B200每颗芯片有192GB,而Blackr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ell Ultra(也称为B300)每颗芯片有288GB。
改进了芯片间互联(ICI),将数千颗芯片连接成大型集群,也称为TPU Pods(用于AI训练及部分时间测试计算推理工作负载)。关于 ICI,需要注意的是,它的性能非常出色,峰值带宽为 1.2 TB/s,而 Blackr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ell NVLink 5 仅为 1.8 TB/s。但谷歌的ICI及其专业编译器和软件堆栈,在某些特定AI任务上仍能提供更优的性能。
关键是,由于TPU不需要解码复杂指令或不断访问内存,它能提供显著更高的焦耳运算。

在扩展方面,谷歌使用光电路交换机(OCS)及其3D环面网络,这些网络与英伟达的InfiniBand和Spectrum-X以太网竞争。主要区别在于OCS极具成本效益和节能性,因为它省去了电气开关和O-E-O转换,但因此灵活性不如另外两种。所以,谷歌技术栈在当前任务上极为专业化,缺乏GPU那样的灵活性。
性能数据 TPU 与 GPU 的区别?
既然我们定义了差异,接下来来看TPU与GPU性能的实际数据。由于谷歌没有公布这些数据,想要获得性能细节非常困难。我研究了许多文章和替代数据来源,包括业内人士的访谈,以下是一些关键要点。
首先,关于谷歌最新的TPUv7(Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood)的信息非常有限,谷歌于2025年4月推出,现在才开始向外部客户开放(内部据说谷歌自4月起就开始使用Ironr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ood,甚至可能用于Gemini 3.0)。如果我们以半分析数据比较TPUv7与较旧但仍广泛使用的TPUv5p版本,这为何重要:
TPUv7 产生 4,614 TFLOPS(BF16),而 TPUv5p 的 459 TFLOPS。
TPUv7 拥有 192GB 内存容量,而 TPUv5p 拥有 96GB
TPUv7内存带宽为7,370 GB/s,而v5p为2,765
我们可以看到,v5 到 v7 之间的性能飞跃非常显著。为了说明背景,我们要看的大多数评论更侧重于TPUv6或TPUv5,而不是v7。
基于对大量前谷歌员工、客户和竞争对手(AMD、NVDA等公司的人员)的访谈分析,结果总结如下。
大多数人同意TPU比Nvidia显卡更具成本效益,且大多数人认为TPU的每瓦性能更好。不过,这种观点并不适用于所有使用场景。
一位前谷歌云员工:
“如果这是合适的应用,那么它们的每美元性能远优于显卡。它们所需的能量更少,产生的热量也比GPU少得多。它们也更节能,环境足迹更小,这也是它们成为理想结果的原因。
使用场景略有限制于显卡,虽然不那么通用,但对于特定应用,每美元性能可提升多达1.4倍,对于想使用GPU而非TPU的客户来说,这是相当显著的节省。“——来源:AlphaSense
同样,谷歌一位前单位主管关于TPU相比GPU在AI搜索每次查询成本上显著降低的见解:
“TPU v6 比 GPU 高效 60-65%,前几代高出 40-45%”
这次采访是在2024年11月进行的,所以专家很可能是在比较v6的TPU和Nvidia Hopper。如今,我们已经有了Blackr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ell对V7的对决。
许多专家还提到TPU的速度优势,一位前谷歌负责人表示,TPU在训练动态模型(如搜索类工作负载)时比GPU快5倍。
还有一位客户的采访非常令人震惊,他同时使用了Nvidia GPU和Google TPU,详细描述了经济效益:
“如果我用八个H100,而不是用一个v5e舱,我会花在一个v5e舱身上少得多。从价格和性能值来看,TPU的性价比会更高。如果我已经有代码,无论是因为谷歌的帮助还是我们自己的工作,知道它能在TPU上运行,那么对我来说,继续用TPU是有益的。
从长远来看,如果我觉得需要写一个新的代码库,我需要做更多的工作,那就取决于我要训练多久。我认为,比如说,未来还有一些我们已经在TPU上完成的工作,因为谷歌会推出新一代TPU,旧TPU的成本会大幅降低。比如,当他们发布 v4 时,我记得 v2 的价格降得非常低,以至于相比任何 NVIDIA 显卡,它几乎免费使用。
谷歌有不错的承诺,所以他们继续支持老款TPU,而且价格也大幅降低。如果你不需要马上训练模型,愿意说“我可以等一周”,即使培训只有三天,那么你可以把成本降低五分之一。“——来源:AlphaSense
另一场有价值的采访是与一位现任AMD员工的采访,他认可了ASIC的优势:
“我预计AI加速器大概能做到我们在行业里看到的效果。我利用我在FPGA方面的经验。相比GPU,我能看到体积能缩小30%,功耗可能降低50%。”
我们还从一位曾在芯片领域工作的谷歌前员工那里获得了一些数据:
“当我看公布的数据时,它们(TPU)在使用场景中比英伟达提升了25%-30%到接近2倍不等。本质上,非常定制化的设计完美完成某项任务,与更通用的设计之间存在区别。”
同时也知道,TPU的真正优势不在于硬件,而在于软件以及谷歌对其TPU生态系统的优化。
很多人提到每个像TPU这样的Nvidia“竞争对手”都面临的问题,那就是Nvidia快速的发展和不断“追赶”Nvidia的问题。本月,一位前谷歌云员工正面回应了这一担忧,他认为TPU的提升速度比英伟达更快:
“TPU每美元性能提升的比例,与新一代相比,远远超过了英伟达。”
此外,谷歌在2025年热芯片活动上的最新发布会数据也支持了这一点,谷歌表示TPUv7在每瓦性能方面比他们的TPUv6e(Trillium)高出100%。
即使是坚定的英伟达支持者,TPU也不能轻易忽视,因为即使是詹森也非常看好谷歌的TPU。在与Brad Gerstner的一档播客中,他提到ASIC方面,谷歌的TPU是“特殊情况”。几个月前,我们还收到了《华尔街日报》的一篇文章,称在新闻媒体《The Information》发布报道称OpenAI开始为ChatGPT租用谷歌TPU后,詹森打电话给奥特曼,询问是否属实,并表示愿意让谈判重回正轨(投资谈判)。值得一提的是,英伟达官方X账号发布了一篇文章截图,内容是OpenAI否认计划使用谷歌自家芯片的计划。至少可以说,英伟达对TPU的关注非常密切。
好吧,但看了这些数据后,有人可能会想,为什么没有更多客户端使用TPU?
TPU的更广泛采用面临哪些问题
TPU采用的主要问题在于生态系统。英伟达的CUDA深深印在大多数AI工程师脑海中,因为他们一直在大学学习CUDA。谷歌在内部开发了生态系统,但没有外部发展,因为直到现在它只用TPU来处理内部工作负载。TPU结合使用JAX和TensorFlor:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫,而行业主要采用CUDA和PyTorch(尽管TPU现在也支持PyTorch)。虽然谷歌正努力使其生态系统更具支持性,并使其能够与其他栈转换,但这也是一个需要多年发展的库和生态系统形成问题。
同样需要注意的是,直到最近,生成式人工智能行业的重点主要集中在训练工作负载上。在训练工作负载中,CUDA非常重要,但在推理甚至推理推断方面,CUDA并不那么重要,因此TPU在推理中扩展占比训练中更大的可能性(尽管TPU在训练中表现也非常好——Gemini 3是最典型的例子)。
大多数客户采用多云服务也对TPU的采用构成挑战,因为AI工作负载与数据及其位置紧密相关(云数据传输成本高昂)。Nvidia 可以通过这三个超大规模平台访问,而 TPU 目前仅在 GCP 上提供。一位使用 TPU 和 Nvidia 显卡的客户解释得很好:
“目前,NVIDIA 最大的优势——这在过去我工作过的三家公司中一直如此——因为 AWS、Google Cloud 和 Microsoft Azure 是三大云公司。
每家公司、每家企业、每一个客户的数据都会在这三者中的一个。这三块云都搭载了NVIDIA GPU。有时候数据太大且存在不同的云,使用客户数据的云计算成本要低得多。
我不知道你是否了解数据从一个云端迁移出云端的成本,这其中一个成本比较大。在这种情况下,如果你用的是NVIDIA工作负载,或者CUDA工作负载,我们可以直接去Microsoft Azure,找一个带NVIDIA GPU的虚拟机,实际上是同一款GPU,不需要修改代码,直接运行就行。
有了TPU,一旦你都依赖TPU,而谷歌说,“你知道吗?现在你得多付10倍的钱”,那我们就完了,因为那样我们就得回头重写一切。这就是原因。这也是人们害怕在TPU上投入过多的唯一原因。亚马逊的Trainium和Inferentia也是同样的原因。“——来源:AlphaSense
这些问题在谷歌内部众所周知,因此内部关于将TPU保留在谷歌内部还是开始对外销售的争论持续不断也就不足为奇了。将TPU保留在内部,会加深GCP的护城河,但与此同时,许多前谷歌员工相信,谷歌迟早会开始在外部提供TPU,可能通过一些新云技术,而不一定是与最大的两大竞争对手——Microsoft和亚马逊。开放生态系统、提供支持等,并使其更广泛可用,是实现这一目标的第一步。
一位前谷歌员工还提到,谷歌去年组建了一个更偏销售的团队来推销和销售TPU,所以他们并不是多年来一直大力推销TPU;这是组织内部相当新的动态。
谷歌的TPU是其云业务未来十年最大的竞争优势
对我来说,TPU最有价值的是它们对GCP的影响。随着云业务从AI出现前时代向AI时代的转变,最大的收获是行业已从AWS、Azure和GCP的寡头垄断转变为更加商品化的格局,甲骨文、Corer:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫eave及许多其他新云在争夺AI工作负载。AI工作负载的问题在于竞争和英伟达75%的毛利率,这也导致AI工作负载的利润率偏低。云行业正从50-70%的毛利率行业转变为20-35%的毛利率。对于云投资者来说,这应该令人担忧,因为这些公司的未来形象更像是公用事业公司,而非有吸引力的高利润率企业。但有一个解决方案可以避免这种未来,回归正常利润率:ASIC。
能够控制硬件且不受Nvidia及其75%毛利率约束的云服务提供商,将能够回归50%毛利率的时代。毫不意外,三大AWS、Azure和GCP都在开发自己的ASIC。最成熟的无疑是谷歌的TPU,其次是亚马逊的Trainum,最后是Microsoft的MAIA(尽管Microsoft拥有OpenAI定制ASIC的全部知识产权,这可能在未来有所帮助)。
即使使用ASIC,你也不能百分之百独立,因为你仍然需要与像博通或Marvell这样的公司合作,他们的利润率低于英伟达但仍不可忽视,谷歌依然处于非常有利的位置。多年来,谷歌在开发TPU的过程中,成功控制了芯片设计的大部分流程。据一位现任AMD员工透露,博通已不再对芯片的全部了解。目前,谷歌是前端设计师(设计的实际RTL),而博通只是后端的物理设计合作伙伴。此外,谷歌当然还拥有芯片的全部软件优化堆栈,这使得芯片性能如此出色。据这位AMD员工说,基于这项工作分工,他认为博通能获得50个百分点的毛利率已经算幸运了。
在不向Nvidia支付加速器费用的情况下,云服务提供商可以选择与他人类似定价以保持更好的利润率,或者降低成本并扩大市场份额。当然,这一切都取决于拥有一款能够与Nvidia竞争的强大ASIC。不幸的是,看起来只有谷歌实现了这一点,因为表现最好的型号是基于TPU训练的Gemini 3。据一些前谷歌员工透露,谷歌内部也在整个AI架构中使用TPU进行推断,包括Gemini和Veo等模型。谷歌购买Nvidia GPU用于GCP,因为客户需要,因为他们熟悉这些产品和生态系统,但在内部,谷歌则全力投入TPU。
随着每一代ASIC的复杂度提升,类似于Nvidia的复杂度和速度,我预测并非所有ASIC项目都能成功。我认为除了TPU之外,目前唯一真正的超大规模市场机会是AWS Trainium,但即便如此,它也面临比TPU更大的不确定性。考虑到这一点,谷歌及其云业务有望成为AI时代的主要受益者和市场份额增长者。
最近,我们甚至收到了SemiAnalysis团队对TPU的赞扬:
“谷歌在超大规模开发者中的硅芯片优势无人能及,他们的第七代TPU可以说与英伟达Blackr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ell不相上下。TPU驱动了Gemini系列模型,这些模型的能力正在提升,在某些任务中接近每智能价值的帕累托边界”——来源:SemiAnalysis
谷歌目前生产多少TPU,规模会更大?
-开云kaiyun