CUDA支持ARM实现百亿亿次超算：NVIDIA和ARM的好机会？

程序员文章站 2022-04-19 22:26:38

超级计算机（supercomputer）通常简称超算，在科学界常被视作一个国家技术领军能力的指标，因为它能够为ai、空气动力、大气科学、能源科学等重要技术的研究提供算力...

超级计算机（supercomputer）通常简称超算，在科学界常被视作一个国家技术领军能力的指标，因为它能够为ai、空气动力、大气科学、能源科学等重要技术的研究提供算力支撑。如今强国之间的竞争已经进入到了百亿亿次级超算的时代，这就需要更强大的处理器。

目前，x86、power作为超算cpu计算节点的主要架构，那么nvidia宣布cuda支持arm谁将是最大的赢家？

超算竞争进入百亿亿次级时代

去年六月，美国能源部公布了世界上最快的超级计算机——summit，反超中国超算太湖之光重夺超算top 500第一的位置，并且美国表示他们预计在2021年建造一台每秒运算数十亿亿次计算机“极光（aurora）”，甚至会打造更高效能的计算机。

2019超算top 500

当然，中国也在建立一个百亿亿次级超级计算机系统，有消息称它基于已构建的三种原型系统：曙光、天河和神威。日本和欧洲也不甘落后，日本希望在2021年有一台百亿亿次级的超级计算机，欧洲人则在希望在2023年实现这一目标。显然，超级计算机的竞赛跨入了exascale计算（百亿亿次级的计算，也可称e级超算）时代。

用一个不精确的说法来解释百亿亿次级计算，一个百亿亿次级计算机一瞬间进行的计算，相当于地球上的所有人每天每秒都不停地计算四年。这样强大的计算能力需要更加复杂的系统。

与普通计算机一样，超算同样由硬件和软件系统组成，但超算仅硬件部分就由高速运算系统、高速互连通信网络系统、存储系统、维护监控系统、电源系统、冷却系统和结构组装设计等部分组成。

其中，高速运算系统负责逻辑复杂的调度和串行任务和并行度高的任务，可采用同构计算（纯cpu组成计算节点），也可以采用异构计算（cpu+加速器组成计算节点）的方式。

实现百亿亿次级超算的新途径

根据国际组织top500编制的超级计算机榜单，从2019年度isc国际超算大会上公布的超算性能500强榜单中，我们不难发现ibm power、nvidia volta/tesla、intel xeon显然是超算计算节点的重要组成。

2019年度isc国际超算大会上公布的超算green500

但是，随着算力的进一步增强，超算产生的热量不仅会造成更多的资源消耗，冷却系统的设计同样面临更大的挑战，因此没瓦特性能也十分重要。

top500也编制了一个green500的超算排行榜，这个排行榜比拼的不是性能，而是比拼每瓦性能，所以，即便某个超算在top500榜单中垫底，在green500中却获得好名次。

根据最新的green500排行榜，在全球最节能的25款超级计算机中，有22款都得益于nvidia的支持。

这其中的关键之一就是采用了异构计算的方式，让x86或者power架构的cpu与nvidia gpu协同，把繁重的处理作业卸载至更为节能的并行处理cuda gpu之上。

不过在cpu市场，arm架构也不可忽略，那么在超算的百亿亿次级竞争中，arm cpu是否也能发挥优势？

现在下结论还为时尚早，但英伟达并不打算错过这个可能的机会。6月17日，2019年度isc国际超算大会上，nvidia宣布将于年底前向arm生态系统提供全堆栈的ai和hpc软件，该堆栈为600多个hpc应用程序和所有ai框架提供加速，其中包括了所有nvidia cuda-x ai和hpc库、gpu加速的ai框架和软件开发工具，如支持openacc的pgi编译器和性能分析器。

这也就意味着，在nvidia的堆栈优化完成之后，nvidia将为所有主要cpu架构提供加速，包括x86、power和arm。

对于新的宣布，nvidia创始人兼首席执行官黄仁勋表示：“超级计算机是促进科学发现的重要工具，建立百亿亿次级超级计算将能够极大地扩展人类知识的边界。随着传统计算规模扩展步伐的停止，功率也将成为所有超级计算机的限制因素。nvidia cuda加速的计算和arm的高能效cpu架构的相结合，将助力hpc社区实现大幅提升，以达到百亿亿次级。”

nvidia的好生意

从百亿亿次级超算建造者的角度看，arm cpu+nvidia gpu是一个新选择，但从nvidia的角度看，cuda支持arm不是一个简单的宣布，而是资源的投入。让nvidia有动力进行这样的投入，是各国和巨头公司们的需求和投入。

仅美国方面，下一代超算技术的研发总投入将达到4.3亿多美元，美国能源部部长里克?佩里就表示，这些资金剑指“下阶段研发百亿亿次系统的全球竞赛”。

显然，百亿亿次级超算的构建少不了nvidia的gpu，特别是ai技术蓬勃发展并且越来越重要的当下。此时nvidia又联合arm为构建百亿亿次级超算提供了新的途径，自然能让其从超算市场获得更多的营收。

nvidia的在超算市场的努力不止cuda支持arm，nvidia在2019年度isc国际超算大会上还宣布了全球速度排名第22位的超级计算机——dgx superpod。

根据nvidia的说法，该超级计算机系统采用了96台nvidia dgx-2h超级计算机，内含1536颗nvidia v100 tensor core gpu，由nvidia nvswitch及 mellanox网络结构相联接。其处理能力高达9.4 petaflops，能够用于训练安全自动驾驶汽车所需要的海量深度神经网络。

对比来看，具备同等性能的其他top500超级计算机系统需要由数千台服务器构建，而dgx superpod占地面积更少，体积比同等系统小400倍左右。部署方面，其他同等规模的系统通常需要6-9个月才能完成部署毕，dgx superpod在工程师采用经过验证的规范性方法情况下，仅需3个星期。

据雷锋网(公众号：雷锋网)了解，nvidia dgx系统已经服务于众多对大规模计算有需求的企业机构，例如宝马、continental、福特与zenuity 等汽车公司，还有facebook、微软与富士胶片等公司，还有研究领域的日本理化学研究所与美国能源部实验室等。

nvidia希望还没有部署人工智能的数据中心的企业机构使用nvidia superpod架构。这可以让双方都从中获益，不止于此，nvidia还能通过构建这样的超级计算机，可以学会如何设计面向大规模人工智能机器的系统。

显然，超算特别是百亿亿次超算对nvidia是可以多赢的好生意。

arm的好机会

对于arm而言，百亿亿次级超算市场则是一个好机会。在移动市场占据领导地位的arm遇到市场增长放缓时，同样也希望能够将其架构拓展到新的市场带来增长，近年来也在努力联合合作伙伴推动arm服务器的发展，不过情况并不理想。

但在超算市场，特别是cuda支持arm之后，arm能够迎来了好机会。atos高级执行副总裁、大数据和网络安全部门负责人pierre barnabé表示：“凭借万宝龙项目，以及为百亿亿次级超级计算机bullsequana x所做的arm计算刀片设计，atos成为了arm生态系统中的先驱者。”

全球重要的超算提供商cray总裁兼首席执行官peter ungaro表示：“我们的cray系统管理和编程环境（编译器、库和工具）已经能够在xc和未来的shasta超级计算机上支持arm处理器，将cuda和cuda-x hpc和ai软件堆栈用于arm平台，并将其与cray系统管理和编程环境紧密集成，能够助力我们的超级计算机实现我们的愿景。”

另外，ampere computing、csc、epi、hpe、jülich超算中心、marvell等都表达了对于cuda支持arm的期待。同时还要看到，cuda支持arm能够建造百亿亿次级超算，同样也能让服务器厂商更便捷地制造arm服务器，所以，arm的好机会是让其能够更好的拓展架构优势。

小结

百亿亿次级超算系统是各国努力正在打造的新一代超算，此时，英伟达cuda支持arm给正在打造新一代超算的国家以及对算力有更高需求的企业一个新的选择，这既是英伟达能够多赢的好生意，更是arm进入超算市场的好机会。

现在有众多的支持者表态支持这一新路径，我们虽然对此也保持积极的态度，但结果仍需通过实际的百亿亿次级的超算系统来得出。创新不会百分之百成功，但创新才是推动革新的最大动力。

上一篇：幽默妙侃,实话也逗人

下一篇：深入解析php之apc

CUDA支持ARM实现百亿亿次超算：NVIDIA和ARM的好机会？

NVIDIA CUDA开放支持ARM架构！冲击百亿亿次超算

NVIDIA CUDA开放支持ARM架构！冲击百亿亿次超算

CUDA支持ARM实现百亿亿次超算：NVIDIA和ARM的好机会？