不怕美国禁售！新天河自主超算芯片公布

程序员文章站 2022-04-22 09:47:07

再一次称霸全球超算性能榜单（性能最大33.83pflops，千万亿次浮点计算），虽然仍处在建设中，但它已经史无前例的连续5次成为top500的冠军。不过，高兴之...

再一次称霸全球超算性能榜单（性能最大33.83pflops，千万亿次浮点计算），虽然仍处在建设中，但它已经史无前例的连续5次成为top500的冠军。

不过，高兴之余我们也有一丝隐忧，因为美国商务部在今年4月份发布公告，。

因为xeon e5处理器比较容易获取，所以限售的重点直指xeon phi计算加速卡。至于超算为什么必须用加速卡，重点考虑的就是能耗和建设成本。

限售令公布后，天河2号系统主任设计师、国防科大教授卢宇彤，“按照原定计划，天河二号拟在今年将计算能力从55pflops升级到100pflops。尽管此次美方对天河二号升级所需intel xeon处理器的限售，对原定升级计划有一定影响，但我们早有准备，绝不会影响天河二号从55pflops升级到100pflops的既定目标 。

至于中国的信心来自那里，本次超算峰会上，卢宇彤的主题演讲也亲自做了回应，我们整理了zdnet亲临现场后发回的报道，一起来看看。

这一次，全新的天河2a首次公开对外公布了信息，和与历代天河系统的对比，其运算峰值将达到100p，更为精彩的是，“中国计算加速卡china accelerator”首次亮相，型号“matrix2000”。

虽然处理器方面仍是至强e5-2692 v2，但这款自主的加速卡可谓是对“禁运令”的最大回击。而且，在性能提升到100p的同时，天河2a的功耗几乎没有增加！

事实上，通用处理器在未来的hpc系统里的权重会越来越低，主要工作将逐渐向控制层面转移，计算任务则主要由加速器完成。因为nvidia gpgpu tesla同样在美国限售范围内，国防科大给出的中国自主研发方案就是通用计算数字信号处理器（gpdsp）。必须承认的是，并不算有多“高大上”。

matrix2000的主要设计规格预计为16核设计，可达到2.4t的浮点性能，虽然还比不上knight landing的3t，但对于白手起家的中国来说，已经相当不易，而且功耗比现有的xeon phi少了100w。

matrix2000的内部设计，采用了标量与向量单元+超长指令字（vliw）的架构

针对全新的matrix2000所准备的软件堆栈，包括gpdps驱动程序、操作系统、编译器、数学库等

据国防科大的相关研发人员介绍，有关dsp的浮点计算应用，一直也是国防科大的研发重点，它与超算研究可谓是并行发展。也正是因为有了这样的积累，国防科大才能比较从容的面对美国的限售。但该研发人员也表示，gpdsp的一个推广难点也就在于，在hpc应用领域几乎是从零起步，就像当初nvidia刚推出gpgpu时一样，直到cuda的发布才迅速改善了gpgpu的应用生态环境。

在互联层，采用了自主研发的th-express 2+架构，实现了自适应（adaptive）互联架构

所谓的自适应互联架构，就从多个层面入手，通过自应用平台层至底层形成的智能互动，保证网络效率持续而稳定，比如自动规避质量不佳或拥挤的链路，进一步杜绝重复的通信，并在节点与网络故障时对路由重新配置等等。

天河二号a仍然是以自主研发的h2fs文件系统为核心，实现了1tb/s的突发传输，100gb/s的持续传输

不过卢宇彤表示，目前matrix2000已经通过了验收。这意味着至少在国防科大的层面，正式投入使用已经没有问题，但具体时间还不能确定，所以只给出了2016年这一较为笼统的时间点。

相关研发人员也透露，除了应用平台进一步配套完善之外，gpdsp芯片本身的生产与物理设备的调优还有很多工作要做。而且受限于当前中国半导体生产工艺水平，现在还是采用40nm工艺的gpdsp，也在很大程度上制约了matrix2000的能力。

总的来说，中国研制超大规模hpc系统的目的肯定不仅仅是为了跑个linpack争个名次，否则也不会引起美国的重视并引发限售。

天河二号a的设计在某种角度上说，真正打开了中国自主hpc发展的向上之路，因为加速器很重要，也因为加速器被国外限售，所以天河二号a在这种环境下还能很快达到100p的性能，也许连美国相关人士也没有想到，但这绝对是件好事！

上一篇：东林党和阉党哪个误国更深明朝灭亡谁才是罪魁祸首

下一篇：曙光出品：中国终于有了自己的液冷服务器！