中国最大AI芯片发布顺手拿下四个国内第一

程序员文章站 2022-09-22 07:57:27

上回书说到——《一份邀请函引发的中国芯片新猜想》。于是乎，我为了验证这个猜想是否正确，特此前来上海一探究竟。直接揭晓答案：猜对了！中国最大ai芯片——邃...

上回书说到——《一份邀请函引发的中国芯片新猜想》。

于是乎，我为了验证这个猜想是否正确，特此前来上海一探究竟。

直接揭晓答案：猜对了！

中国最大ai芯片——邃思2.0，正式发布。

而且听完整场发布会，最直观的感受便是好多的“第一、首个”：

中国首款支持单精度张量tf32数据精度的人工智能芯片。

单精度fp32/张量tf32峰值算力，均为国内第一。

中国第一个支持世界最先进存储hbm2e和单芯片64 gb内存的产品。

加上其它产品升级，成为国内首家发布第二代ai训练的组合产品。

嗯，看着似乎是有点东西。

中国最大ai芯片问世

先来聊聊最为核心的这张芯片。

虽然说邃思2.0是面向ai云端训练，基于第一代的升级，但一个重点是工艺没有变化。

也就是这张芯片依旧是由格芯的12nm finfet工艺打造。

尺寸方面，为57.5毫米 x 57.5毫米，达到了芯片采用的日月光2.5d封装的极限。

算力方面：

单精度fp32算力为40tflops

单精度张量tf32算力为160tflops

整数精度int8算力为320tops

堆叠存储方面，搭载的是hbm2e，据了解，这是目前业界较为领先的存储方案。

它具备超大存储容量和访存带宽，最高达到64gb和1.8tb/s，还可以支持眼下爆火的超大规模模型的训练。

算力扩展方面，由于邃思2.0拥有300gb/s的独立片间互联通道，因此可以非常灵活。

一个邃思2.0，升级三大产品

而随着邃思2.0的到来，燧原科技其他产品也得到了相应地升级。

首先，是云燧t20 训练加速卡。

它是面向数据中心的第二代ai训练加速卡，官方介绍是这样的：

具有模型覆盖面广、性能强、软件生态开放等特点，可支持多种人工智能训练场景。

那么到底性能能抢到什么程度？

在现场，燧原科技直接亮出的benchmark！

不难看出，在图像识别/分类、nlp、目标检测、图像分割和推荐任务中，与友商相比均有明显的提升。

（至于这个友商，就是很强的那家，你懂的）

或许你觉得数据还不够直观，那就直接来效果吧。

下面是友商和云燧t20处理图片的速度对比：

中国最大AI芯片发布顺手拿下四个国内第一

处理图片更多，速度还更快，有木有！

除此之外，还有云燧t21训练oam模组。

据了解，它是是基于ocp（开放计算项目）oam（开放加速模组）标准设计、兼容ocp oai标准（开放加速器基础设施）的ai训练加速模组。

所面向的数据中心，可以在互联网、金融、教育、医疗、工业和政务等场景中使用。

云燧t21单精度fp32算力最高可达40tflops、tf32算力最高则是160tflops。

与友商的性能对比如下：

最后，燧原科技还升级了它家的驭算topsrider软件平台：

基于算子泛化技术及图优化策略，支持主流深度学习框架下的各类模型训练。

利用horovod分布式训练框架与gcu-lare互联技术相互配合，为超大规模集群的高效运行提供解决方案。

而且编程模型和可扩展算子接口，都是开放的哦。

还搞了一个“大组合”

以为这就完了？

不不不。

燧原科技还把它们搞了个“大组合”——云燧智算集群（cloudblazer matrix 2.0）。

最高单精度算力可以达到1.3e（130000t），足足是上一代的46倍。

燧原科技coo 张亚林表示：云燧的互联接口在单口速度保持不变的前提下，接口数量从t10的4个增加到t20的6个，带宽提升150%。用云燧t20可以打造中国e级单精度算力集群。

承诺了一个约定

最后的最后，燧原科技还介绍了关于他们接下来的计划。

云端训练计算产品方面，在2023年，他们准备发布t30/t31。

较一代产品相比，性能要达到14倍。

云端推理计算产品方面，也将在2023年进行迭代，性能提升16倍。

而且还给出了一个燧原产品定理：

至于到了2023年，燧原科技能否兑现承诺，就一起拭目以待吧。

- the end -

中国最大AI芯片发布 顺手拿下四个国内第一