NVIDIA两款全新GPU首秀:刷新AI推理纪录、性能314倍于CPU
时隔半年,mlperf组织发布最新的mlperf inference v1.0结果,v1.0引入了新的功率测量技术、工具和度量标准,以补充性能基准,新指标更容易比较系统的能耗,性能和功耗。
v1.0版本的基准测试内容云端推理依旧包括推荐系统、自然语言处理、语音识别和医疗影像等一系列工作负载,边缘ai推理测试则不包括推荐系统。
所有主要的oem都提交了mlperf测试结果,其中,在ai领域占有优势地位的nvidia此次是唯一一家提交了从数据中心到边缘所有mlperf基准测试类别数据的公司,并且凭借a100 gpu刷新了纪录。
不仅如此,超过一半提交成绩的系统都采用了nvidia的ai平台。
不过,初创公司提交其ai芯片推理性能benchmark的依旧很少。
ai推理最高性能半年提升45%
雷锋网在mlperf inference v0.7结果发布的时候已经介绍过,nvidia去年5月发布的安培架构a100 tensor core gpu在云端推理的基准测试性能是最先进英特尔cpu的237倍。
经过半年的优化,nvidia又将推荐系统模型dlrm、语音识别模型rnn-t和医疗影像3d u-net模型的性能进一步提升,提升幅度达最高达45%,与cpu的性能差距也提升至314倍。
从架构的角度看,gpu架构用于推理优势并不明显,但nvidia依旧凭借其架构设计配合软件优化刷新了mlperf ai云端和边缘推理的benchmark纪录。
mlperf的benchmark证明了a100 gpu性能,但其不菲的售价也是许多公司难以承受的。
今天,更具性价比的nvidiaa30(功耗165w)和a10(功耗150w) gpu也在mlperf inference v1.0中首秀。
a30 gpu强于计算,支持广泛的ai推理和主流企业级计算工作负载,如推荐系统、对话式ai和计算机视觉。
a10 gpu更侧重图像性能,可加速深度学习推理、交互式渲染、计算机辅助设计和云游戏为混合型ai和图形工作负载提供支持。可以应用于ai推理和训练的a30和a10 gpu今年夏天开始会应用于各类服务器中。
a100云端ai推理性能比cpu高314倍
a100经过半年的优化,与cpu的性能差距从v0.7时最多237倍的差距增加到了最高314倍。
具体来看,在数据中心推理的benchmark中,在离线(offline)测试,a100比最新发布的a10有1-3倍的性能提升,在服务器(server)测试中,a100的性能最高是a10的近5倍,在两种模式下,a30的性能都比a10高。
值得注意的是,英特尔本月初最新发布的第三代至强可扩展cpu ice lake的推理性能相比上一代cooper lake在离线测试的resnet-50和ssd-large模型下有显著提升,但相比a100 gpu体现出17-314倍的性能差距。
高通ai 100的云端ai推理在mlperf inference v1.0测试下表现不错,其提交的离线和服务器测试下的resnet-50和ssd-large模型成绩显示,高通ai 100的推理性能均比nvidia新推出的a10 gpu高,其它模型的成绩高通并未提交。
从每瓦性能来看,高通a100在提交成绩的resnet-50和ssd-large模型中比a100更高,但性能比a100低。
赛灵思的vck5000 fpga在图像分类resnet-50的测试中表现不错。
jetson系列是唯一提交所有边缘推理测试成绩的芯片
a系列gpu在云端ai推理的性能优势可以延续至边缘端。mlperf的边缘ai推理benchmark分为single-stream和multi-stream,a100 pcie、a30、a10在single-stream的所有模型下都有显著的性能优势,高通a100在resnet-50模型下也优势明显,不过高通也仅提交了这一模型的成绩。
这些产品用于边缘ai推理有些大材小用,nvidia的jetson家族的agx xavier和xavier nx更适合边缘场景,根据提交的数据,centaur公司在resnet-50模型中优势明显,ssd-small模型下的性能与jetson xavier nx性能相当。
边缘ai推理的multi-stream benchmark,只有nvidia提交了成绩,a100 pcie版本的性能最高是jetson agx xavier和xavier nx的60倍。
在nvidia此次提交的结果中,多项是基于triton推理服务器,其支持所有主要框架的模型,可在gpu及cpu上运行,还针对批处理、实时和串流传输等不同的查询类型进行了优化,可简化在应用中部署ai的复杂性。
雷锋网(公众号:雷锋网)了解到,在配置相当的情况下,采用triton的提交结果所达到的性能接近于最优化gpu能够达到性能的95%,和最优化cpu99%的性能。
另外,nvidia还使用ampere架构的多实例gpu性能,在单一gpu上使用7个mig实例,同时运行所有7项mlperf离线测试,实现了与单一mig实例独立运行几乎完全相同的性能。
小结
mlperf benchmark结果的持续更新,可以为在it基础设施投资的企业提供一些有价值的参考,也能推动ai的应用和普及。
在这个过程中,软件对于ai性能的提升非常重要,同样是a100 gpu,通过有针对性的优化,半年实现了45%的性能提升。
同时也不难发现,nvidia正在通过持续的软硬件优化,以及更丰富的产品组合,保持其在ai领域的领导力,在ai领域想要超越nvidia似乎正在变得越来越难。
- the end -