欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  移动技术

里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算

程序员文章站 2022-07-10 13:57:45
google i/o开发者大会去年因为疫情而取消,今年采取线上形式强势回归。在没有开发者在场的google园区内,google ceo桑达尔·皮查伊(sundar pichai)宣布推出...

google i/o开发者大会去年因为疫情而取消,今年采取线上形式强势回归。

在没有开发者在场的google园区内,google ceo桑达尔·皮查伊(sundar pichai)宣布推出多项全新技术,除了能够帮助用户实现“空间瞬移”的全息视频聊天技术project starling让人耳目一新,还有最新一代ai芯片tpu v4。

“这是我们在google上部署的最快的系统,对我们来说是一个具有历史意义的里程碑。”皮查伊这样介绍到。

里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算

最强tpu,速度提升2倍,性能提升10倍

google官方介绍,在相同的64芯片规模下,不考虑软件带来的改善,tpu v4相较于上一代tpu v3性能平均提升2.7倍。

在实际应用中,tpu v4主要与pod相连发挥作用,每一个tpu v4 pod中有4096个tpu v4单芯片,得益于其独特的互连技术,能够将数百个独立的处理器转变为一个系统,互连带宽在规模上是其他任何网络技术的10倍。

每一个tpu v4 pod就能达到1 exaflop级的算力,实现每秒10的18次方浮点运算。这甚至是全球最快的超级计算机“富岳”的两倍性能。

“如果现在有1千万人同时使用笔记本电脑,所有这些计算机累加的计算能力,刚好就能够达到1 exaflop的算力,而之前要达到1 exaflop,可能需要专门定制一个超级计算机。”皮查伊如是说。

今年的mlperf结果表明,googletpu v4的实力不容小觑,在使用imagenet数据集的图像分类训练测试(准确度至少75.90%),256 个tpu v4在1.82分钟内完成了这一任务,这几乎与768个nvidia nvidia a100图形卡、192个amd epyc 7742内核(1.06分钟)、512个华为ai优化的ascend 910芯片以及128个intel xeon platinum 8168内核(1.56分钟)组合在一起的速度一样快。

当负责在大型*语料库上训练基于transform的阅读理解bert模型时,tpu v4的得分也很高。使用256个tpu v4进行训练需要1.82分钟,比使用4096 tpu v3进行训练所需的0.39分钟要慢1分多钟。

同时,如果想要使用nvidia的硬件达到0.81分钟的训练时间,需要2048张a100卡和512个amd epyc 7742 cpu内核。

google同样在i/o大会上展示了能够用到tpu v4的具体ai实例,包括能够同时处理网页、图像等多种数据的mum模型(multitask unified model,多任务统一模型)和专为对话打造的lamda都是能够用到tpu v4的场景模型,前者比阅读理解模型bert强1000倍,适合赋能搜索引擎帮助用户更加高效地得到自己想要的信息,后者则可以与人类进行不间断的对话交流。

这一并不向外出售的tpu,很快将在被部署在google的数据中心,而且90%左右的tpu v4 pod都将使用绿色能源。

另外,google也表示,将在今年晚些时候开放给google cloud的客户。

google自研tpu,五年更新四代

google最早于2016年宣布首款内部定制的ai芯片,区别于训练和部署ai模型的最常见的组合架构,即cpu和gpu组合,第一代tpu在那场世界著名的人机围棋大战助力alphago打败李世石“一战成名”,宣告并不是只有gpu才能做训练和推理。

google第一代tpu采用28nm工艺制程,功耗大约40w,仅适用于深度学习推理,除了alphago,也用在google搜索、翻译等机器学习模型中。

2017年5月,google发布了能够实现机器学习模型训练和推理的tpu v2,达到180tflops浮点运算能力,同时内存带宽也得以提升,比同期推出的cpu ai工作负载提升30倍,比gpu ai工作负载提升15倍,被基于4块tpu v2的alphago击败的世界围棋冠军柯洁最直观地感受了这一切。

2018年5月,google又发布第三代tpu v3,性能是上一代tpu的两倍,实现420tflops浮点运算,以及128gb的高带宽内存。

按照一年一次迭代更新的节奏,google理应在2019年推出第四代tpu,不过这一年的i/o大会上,google推出的是第二代和第三代tpu pod,可以配置超过1000颗tpu,大大缩短了在进行复杂的模型训练时所需耗费的时间。

在ai芯片发展史上,无论是从片上内存上,还是从可编程能力来看,google tpu都是不可多得的技术创新,打破gpu的“垄断”地位,且打开云端ai芯片的新竞争格局。

发展五年的google tpu在今天依然保持着强劲的竞争力,未来的世界是什么样的?google tpu已经告诉了我们一小部分答案。

里程碑式Google TPU v4重磅发布!性能两倍于世界第一超算

- the end -