欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

程序员文章站 2022-07-06 08:50:54
30系显卡买不到?英伟达老黄刚刚又发布一款“空气cpu”。不过就算你抢不到也没关系,因为这款cpu专门为服务器设计,到2023年才能发布。刚刚,在英伟达举办的gpu技术大会上(...

30系显卡买不到?英伟达老黄刚刚又发布一款“空气cpu”。

不过就算你抢不到也没关系,因为这款cpu专门为服务器设计,到2023年才能发布。

刚刚,在英伟达举办的gpu技术大会上(其实会场就是老黄家的厨房),黄仁勋发布了全新arm架构cpu,也是英伟达首款服务器cpu——grace。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

这款cpu专为处理大量数据的ai任务而生。老黄说,如果服务器用上这款cpu,那么ai性能将超过x86架构cpu的10倍。

去年,老黄就是在这里发布了a100、rtx 30系列gpu。今年,这位皮衣男的头发更长了,也更白了。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

除推出首款服务器gpu外,英伟达还要把arm架构带到笔记本上。

如果用一句话概括这场发布会,那就是老黄想用arm革x86的命,毕竟英伟达是准备用400亿美元收购arm的。

ppt级cpu

全新的cpu以女程序员先驱grace hopper的名字命名,有趣的是英伟达的gpu是以男性科学家的名字来命名的:图灵、安培……现在英伟达的两条产品线实现了梦幻联动。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

rtx 30系显卡是因为买不到而被叫做“空气”,那么grace cpu被叫做空气的原因是,这款产品实在是“太ppt”了。

正式发布时间在2年后,什么整数浮点运算性能、主频参数统统没有,连制程工艺也语焉不详,如果不出意外,应该是5nm。

英伟达只在发布会上透露,grace在specrate2017_int_base基准测试中超过300分,可以与amd第二代64核epyc中的某些cpu相媲美。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

再看看这一个月里amd和intel发布的服务器gpu那一大串参数,这不就是“空气”吗!

既然什么参数都没有,唯一参数也只和amd上一代etpc持平,老黄为何敢拍着胸脯说grace比其他x86架构强10倍呢?

因为,在数据传输速度这件事上,grace比amd和intel跑得快多了。

这对于ai任务太重要了。英伟达的gpu用于深度学习,而cpu、内存和gpu之间的通信速度往往拖了ai的后腿。

过去,cpu和gpu之间靠pcie总线进行数据传输,两种不同架构硬件之间的沟通太慢。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

而x86架构cpu又不支持英伟达自有的nvlink,所以最好的办法是自己造一个cpu,专门为大量数据的ai任务而生。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

grace和英伟达gpu之间通过nvlink 4进行通信,从gpu到cpu之间的传输速度高达900gb/s,比amd epyc 2+nvidia a100的搭配快14倍。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍
△ grace与amd cpu传输速率对比(图片来自anandtech)

另外,grace也有着最高的内存带宽500gb/s,且支持lpddr5x ecc内存,能效比其他产品高10倍。

这款cpu我们何时才能见到呢?

现在已经有两个大客户了,其中瑞士国家计算中心正在建造全球最快ai超算算力达20eflops;美国洛斯阿拉莫斯国家实验室也将为其研究人员配备搭载grace的新ai超算。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

至于grace的一个可能用途,是用来训练下一代超过1万亿参数的nlp模型,gpt-4就靠它了。

arm笔记本也能有独显

取代x86的野心不仅在服务器端,英伟达还要把arm带到pc平台上。

但英伟达不是自己制造笔记本cpu,而是与联发科合作。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

未来英伟达rtx笔记本显卡将支持arm架构cpu,将光追和ai技术带到arm平台上。目前双方已经开发了支持chromium、linux两种开源系统的sdk参考平台。

联发科ceo表示,gpu加速将对整个arm生态系统产生巨大的推动作用。

希望windows能在arm软件生态上给力,用上arm架构的独显游戏本也许不是梦了。

自动驾驶芯片

老黄在发布会上表示,将于2022年投产orin自动驾驶芯片。

虽然我们到明年才可能看到搭载orin的汽车,但是这不妨碍英伟达发布下一代自动驾驶芯片atlan。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

atlan算力达到1000tops,是上一代orin芯片的4倍,为2025年诞生的汽车设计。

英伟达宣布与沃尔沃深化合作,明年沃尔沃将从新款xc90开始搭载orin系统,并在2025年款车型中搭载最新的atlan系统。

更多ai落地

nvidia发布了用于训练大规模transformer模型的“威震天”——megatron triton推理服务器。

transformer模型的参数规模正以指数级增长,每两个半月翻一倍。nvidia预计明年将会出现万亿级参数的模型。

以gpt-3为例,使用双路cpu的服务器进行一次128个单词的查询就要超过一分钟。

megatron triton通过多gpu、多节点推理,可以在1秒内同时进行16次这样的查询。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

会上还发布了药物研发领域的clara discovery产品,包括医学影像、基因组分析、量子化学、寻找新化合物等方面。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

cuquantum,用gpu加速量子电路模拟,适用于张量网络求解和状态向量求解。在测试中,将双cpu需要10天完成的任务缩短到2小时。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

除此之外,还有多模态实时对话ai平台jarvis的1.0公测版,能够实现语音识别、语言理解、翻译,以及在合成语音中表现出情绪。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

以及开源推荐系统框架merlin。在测试中实现10-50倍的etl加速。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

jarvis和merlin都已可以在nvidia ngc中下载。

还要打造虚拟世界

nvidia还宣布夏季推出元宇宙产品omniverse企业授权许可,用于让团队在虚拟世界中异地实时协作。

元宇宙(metaverse),1992年由尼尔·斯蒂芬森于在科幻小说《雪崩》中提出,是一个与现实世界相互影响的虚拟世界,就像《头号玩家》中展示的那样。

nvidia omniverse是一个云原生平台,除了视觉模拟外、还进行高精度的材料和物理学模拟并与nvidia ai完全集成。

除了娱乐外,omniverse可用于机器人训练,通过创造工厂的数字重建,在虚拟环境中训练好的机器人ai可以直接部署到真实环境中。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

老黄还展示了与宝马公司合作的项目,通过模拟了31家宝马工厂的生产流程,并在数字环境中进行优化,将生产效率提升了30%。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

显卡呢?

说了这么多乱七八糟的,老本行显卡呢?

nvidia公布了8款为下一代笔记本电脑、台式机和服务器推出八款全新安培架构显卡rtx a系列。

a系列为用于图形设计的专业卡,搭载下一代rtx技术。

英伟达发布“空气CPU”:ARM架构 性能超X86十倍

其中rtx a5000桌面卡提供24g显存。而a2000-a5000的移动版将搭载第三代max-q技术,在不影响笔记本轻薄属性下提供更高性能。

- the end -

相关标签: #NVIDIA #CPU