超算TOP500榜单公布 英伟达AI优势前所未有?
本周,一年一度的高性能计算大会isc如期而至,世界top 500超级计算机排名也随之更新公布,对比去年的榜单,今年top 10的榜单中,来自美国新能源部劳伦斯伯克利国家实验室的perlmutter系统新晋入围。
在top500的榜单中,中国超级计算机的数量虽然下降至186台,但对比位居第二的美国的123台,依然遥遥领先。
一个值得注意的事实是,此次榜单中有342套系统采用了英伟达技术提供加速,对比去年的333套提升2%,榜单上使用infiniband的系统数量也比去年增加了20%。另外,名单上更新的两个新系统“超级云”,能够同时满足ai、高性能计算(hpc)和云端需求。
这意味着,高性能计算正在同ai加速融合,而在这一融合趋势下,英伟达在超算领域的优势前所未有。
不止是top10中的8台,新晋系统也选英伟达
雷锋网(公众号:雷锋网)此前在《全球top10超级计算机8台都选英伟达的三大原因》一文中分析过,由于高速数据互连技术的普及,以及英伟达gpu系统能够提高将超算的能效提升2.8倍,全球top10超级计算机中的8台都采用了英伟达gpu或infiniband网络技术。
在最新公布的榜单中,不少新晋系统也都选择英伟达提供支持,其中包括云端的两个新系统。
microsoft azure是其中之一,在top 500榜单上连续占据第26位到第29位,利用集群将公有云服务提升到新的水平。作为新兴的共享超级计算机,地球上的任何用户都可以按需使用。
在azure系统的背后,有8个nvidia a100 tensor core gpu为其各个虚拟实例提供动力支持,每个芯片都有自己的hdr 200g infiniband 通信接口,可以与azure云中的数千个gpu建立高速连接。
剑桥大学的新系统wilkes-3是另一个超级云系统,也是世界上第一台云原生超级计算机。该系统使用了320个连接在hdr 200g infiniband 网络上的 a100 gpu,且有经过优化的nvidia bluefield dpu提供安全、虚拟化的数据处理,保证虚拟资源的隐私性和安全性。
此外,本次进入top10的新系统perlmutter,以 64.59 linpack petaflops 在 top500 中排名第 5,也是由来自英伟达6144个a100gpu提供动力支持。
国家能源研究科学计算中心 (nersc) 数据和分析服务组代理负责人 wahid bhimji 表示:“ai是美国能源部的一个增长领域,其可行性已被验证,正计划投入生产。”
英伟达更新超算平台,加入三项关键技术
为了持续满足高性能计算对ai的需求,英伟达也在本次isc大会上发布全新的hgx a100系统,且已经在英国爱丁堡大学托管的dirac超级计算机中落地。
英伟达hgx a100加入了三项关键技术:nvidia a100 80gb pcie gpu、nvidia ndr 400g infiniband 网络和 nvidia magnum io gpudirect storage 软件。
其中,a100 80gb pcle gpu采用nvidia ampere架构,与a100 40gb相比其内存带宽带到2tb/s,提升25% 。更高的内存容量和内存带宽,能够将更多的数据和更大的神经网络保存在内存中,从而最大限度地减少节点通信和能耗,研究人员也能获得更高的吞吐率和更快的结果。
在网络方面,英伟达并购mellanox后,释放 infiniband高效网络潜能。infiniband 作为全球唯一具有完全负载转移功能的网络内计算互连系统,英伟达为此配备了nvidia quantum-2固定配置交换机和模块化交换机。
nvidia quantum-2 模块化交换机最高可提供 2048 个 ndr 400gb/s infiniband 端口(或 4096个 ndr200 端口)的可扩展端口配置,双向总吞吐量达到每秒 1.64 pb,是上一代 hdr infiniband 模块化交换机系列的5倍。
nvidia quantum-2 交换机具有向前和向后兼容的特性,可以轻松迁移和扩展现有的系统和软件。
在软件方面,magnum io gpudirect storage软件提供了gpu内存和存储之间的直接内存访问,能够实现复杂工作负载处理性能。英伟达称,应用程序通过直接路径从低 i/o 延迟中受益并能够使用网络适配器的全部带宽,同时减少 cpu 的利用负载并管理数据消耗增加所产生的影响。
目前,英伟达最新hgx高性能计算平台已落地英国爱丁堡大学,为其托管的新型dirac超级计算机tursa提供动力支持。
爱丁堡大学的 peter boyle 教授对hgx所提供的支持表示肯定:“tursa 旨在应对独特的研究挑战,为科学建模和仿真解锁新的可能性。nvidia 加速计算平台提供超大规模服务,通过精确平衡网络带宽和flops 来以实现这项研究所需的出色性能,进而助力新发现。”
几十年前,学术研究中心尝试模拟原理的相互作用,吸引了航空航天、医疗健康等多个行业的注意,但其所需要的巨量计算阻碍了发展研究,直到加速计算和深度学习的出现,才使得高性能计算落地得以推进。
“得益于各种进步,我们正处于高新能计算革命的开端。”黄仁勋如此评价当下高性能计算的发展。
- the end -