AMD发布全新架构计算卡Instinct MI100：AI性能暴涨7倍

程序员文章站 2022-04-16 19:48:13

在游戏领域，基于rdna 2架构的radeon rx 6000系列显卡已经开始闪亮登场。在高性能计算领域，基于cdna全新架构的新一代计算卡instinct mi100也终于登台了！amd radeo...

在游戏领域，基于rdna 2架构的radeon rx 6000系列显卡已经开始闪亮登场。在高性能计算领域，基于cdna全新架构的新一代计算卡instinct mi100也终于登台了！

amd radeon instinct系列计算卡已经发展了多款型号，但是在此之前，amd gpu一直都是一套架构打天下，游戏、计算不分家，自然不利于不同方向的深度优化。

今年3月份，amd宣布了首个专门针对数据中心高性能计算而设计的cdna架构，从此与rdna游戏架构分道扬镳。二者虽然还有一些共通点，但在设计、优化上已经泾渭分明，在各自领域的性能、能效也更高。

而在产品命名方面，amd计算卡也放弃了radeon字样，不再称呼radeon instinct，而是简单地叫做instinct。

amd instinct可以说是专为hpc高性能计算而生的，志在推动超级计算机进入百亿亿次计算时代(exascale)。

回顾历史，21世纪的前10个年头属于万亿次计算时代(terascale)，完全依赖cpu运算；最近10个年头属于千万亿次计算时代(petascale)，gpu加速运算展露锋芒。

不过近两年，传统的gpu加速计算也已经初显疲态，性能增强曲线也缓了下来，必须实现全新的突破。

cdna架构和mi100加速卡就是这样的突破性产品，也是amd开拓新未来的新旗舰。

amd instinct mi100是其迄今为止性能最高的hpc gpu，fp64双精度浮点性能首次突破10tflops(也就是每秒1亿亿次)，并在架构设计上专门加入了matrix core(矩阵核心)，用于加速hpc、ai运算，号称在混合精度和fp16半精度的ai负载上，性能提升接近7倍。

另外，新卡的外观设计也令人眼前一亮，更有质感的拉丝外壳，深灰色调，非常沉稳大气。

它集成多达120个计算单元、7680个流处理器，搭配32gb hbm2，带宽高达1.23tb/s，同时支持pcie 4.0，集成infinity fabric x16高速互联通道，峰值带宽达276gb/s(相当于pcie 4.0 x16的大约4倍)，而整卡功耗控制在300w。

计算性能方面，fma64/fp64双精度为11.5tflops(每秒1.15亿亿次)，fma32/fp32单精度为23.1tflops(每秒2.31亿亿次)，fp32 matrix单精度矩阵计算为46.1tflops(每秒4.61亿亿次)，fp16 matrix半精度矩阵计算为184.6tflops(每秒18.46亿亿次)，bfloat16浮点为92.3tflops(每秒9.23亿亿次)。

这些数字是什么概念呢？

就拿11.5tflops的双精度性能来说，2000年排名世界第一的超级计算机asci white，这个指标也不过12.3tflops，但却是付出了600万瓦的功耗、106吨的身材才获得的，instinct mi100却只要300瓦、1.16千克。

换言之，如今的一块卡，就相当于20年前的一个大规模计算集群！

amd上代计算卡instinct mi50采用的还是vega 20核心，60个计算单元，3840个流处理器，32gb hbm2显存带宽1tb/s，infinity fabric总线带宽92gb/s，功耗300w。

instinct mi100的核心规模翻了一番，显存带宽提升了超过20％，infinity fabric带宽提升了整整2倍，但是功耗却完全没变(工艺应当也还是7nm)，新架构的能效可见一斑。

新卡的性能更是不可同日而语，fp64双精度、fp32单精度性能均提升74％，fp32矩阵性能提升接近2.5倍，ai负载性能更是几乎7倍的飞跃。

在美国能源部旗下的橡树岭国家实验室，amd mi100计算卡已经在支撑多项百亿亿次科研项目，涉及namd分子动力学模拟、cholla星系形成研究、picongpu激光放射癌症疗法、gests流体动力学等等诸多前沿科技。

amd instinct mi100计算卡还有一个绝佳搭档，那就是amd自家的霄龙数据中心处理器，慧与、戴尔、超威、技嘉等多家行业巨头都有提供这种双a方案。

当然了，只有硬件，是做不成高性能计算的，amd同时一直在推进一站式软件解决方案rocm。

从2016年初入江湖的1.x版本，2018年奠定基础的2.0版本，到2019年专注于机器学习的3.0版本，再到如今最新的4.0版本，amd rocm已经打造成了一整套针对机器学习、高性能计算的百亿亿次级开发方案，规划中的各项功能特性也基本都已经实现。

软件优化的力量无疑是巨大的，可以充分释放硬件潜力，比如说上代mi50，搭配rocm 3.0的话性能相比于搭配rocm 2.0可以提升3-4倍，而最新的mi100、rocm 4.0联合，更是可以轻松带来5-8倍的性能提升。

amd rocm生态的进步速度非常快，已经有众多领域的头部厂商采纳和支持，而且它沿袭了amd一贯的原则，那就是完全开源开放，非常方便代码迁移，比如说hacc(宇宙学)只用了一个下午，specfem3d(地震学)半天就搞定，cholla(天体物理学)花了几天，quda(量子物理学)也不过21天。

- the end -

转载请注明出处：快科技

#amd #radeon instinct #cdna

责任编辑：上方文q

上一篇：用Java编写猜数字小游戏

下一篇：什么样的人不适合创业？不适合创业的原因