爆发前夜，华为的AI超算将会引领什么？

程序员文章站 2023-01-05 21:47:55

超算和AI一直是两个并驾齐驱的赛道。一直以来超算重视硬件算力，一般用于国防、模拟、生物、天文科学研究等领域，比如我国的天河、神威，美国阿贡国家实验室和劳伦斯·利弗莫尔国家实验的米拉和泰坦。...

超算和ai一直是两个并驾齐驱的赛道。一直以来超算重视硬件算力，一般用于国防、模拟、生物、天文科学研究等领域，比如我国的天河、神威，美国阿贡国家实验室和劳伦斯·利弗莫尔国家实验的米拉和泰坦。

而ai领域，在早期阶段各团队强调在算法和调参上不断优化，而且当时的计算机架构并不适合做卷积神经网络的训练，在cpu上训练出一个模型可能达数年之久。

直到从深度学习的开山鼻祖geoff hinton的学生alex krizhevsky在gpu上成功训练出突破性的深度神经网络之后，专用于ai硬件的概念才被各界所看重。

对于ai来说，算力与硬件架构同等重要，也就是在这种理念指导下，超算能力在ai的应用开始显得分外重要。

不论从目前国际产业竞争形势亦或是产业自身革新，ai超算背后的硬件和框架如何发展，将会是国内ai下一轮爆发关键基础。在国内ai赛道，华为作为全球顶尖的ict基础设施和智能终端供应商，已经携“昇腾”处理器给出了完整的ai超算解决方案。

这对于国内ai的研发和应用效率的提升，毫无疑问是一场及时雨。

近日华为出席isc(高性能计算大会)后，全球ai赛道产业链上下游给予了高度关注。

关键领域没有岁月静好，超算融合ai已风起云涌

国运之争的核心是产业实力的综合竞争，而ai已经成为国运之争中的一环。

国内三十年岁月静好的改革开放红利已经到了战略博弈的临界点，像ai这种尖端产业正在成为大国博弈的桥头堡。

硬件是ai算法迭代的基础，没有技术之上的硬件自主权，就如同只有施工图纸而没有钢筋水泥，难以摆脱被控制的窒息感。

2018年美国公布了超算“summit”，这台超级计算机是由ibm在英伟达帮助下开发，它的峰值计算能力可以达到每秒20亿亿次。

更重要的，summit是史上第一台既支持传统计算，也支持运行人工智能应用程序的超级计算机，机器学习和神经网络等运行都可以在其上实现。

今年6月23日，全球超级计算机500强榜单更新，中国以226台部署量位列第一，美国一114台名列第二，日本以30台位居第三。但是在top500的榜单系统，有333套采用了英伟达的技术。

我国的ai超算解决方案直到华为的达芬奇架构公布后才有系统的解决方案，中国在ai超算领域的研发和应用，还需要点一把火，加一把劲。

框架和硬件“两开花”，研发标准统一才是“战斗力”

华为在2018年7月创新推出针对ai计算的达芬奇架构，在项目下公布了“昇腾”ai处理器+ai开源计算框架“mindspore”。

由于华为给出了从硬件到框架一整套的解决方案，特别契合当下ai超算硬件成为新基建的公共特性。

这将会对ai业态造成三个方面的显著正面影响：ai全行业渗透、提升开发效率以及降低算力成本。

1.全栈高算力平台，带动ai全行业渗透

在以往的ai开发中，架构、api、生态和运维都需要专门人才进行支持和管理，开发环境复杂，人才数量少，全球的ai人才供需比只有1%，只有三万核心专家。从行业上看，中国市场含有ai的应用仅有10%，全行业ai渗透率只有4%。

国内ai的研究很火热，2019年斯坦福人工智能索引报告显示中国的人工智能论文数量超过欧盟，但是行业应用有限。

要实现全面超越，形成产业聚集优势，亟需ai超算的基础设施，带动全行业的ai应用和转型。

华为的ai超算解决方案从硬件标准、运算集群和运维管理上都为应用者提供了统一方案。

在硬件标准上，“昇腾”的da vinci架构架构中含有cube、vector、scalar三种计算单元，平均算力是业界算力的两倍。

基于“昇腾”处理器的atlas集群在全球最快ai训练集群的基础上，部署了普惠性的ai开发平台modelarts和cann开发工具。

尤其是modelarts，作为一个“一站式”的开发平台，让ai开发的各个环节，包括数据处理、算法开发、模型训练、模型部署都可以在modelarts上完成。

这极大地降低了ai开发的门槛。这样一个专供ai的基础性商业超算系统已经成型。

基于这个系统，使用者可以极大减少资源调度成本，降低开发成本，最主要的是降低算力成本。

由于ai正在成为通用目的技术，使用场景会越来越广，同时也意味着后入场的行业引入ai的门票费会越来越高，华为的超算架构让更多场景与ai融合降低了门槛,促进了ai向全行业渗透。

2.自主框架mindspore，开发态和运行态双重提速

由于华为配合“昇腾”处理器的自主计算框架mindspore的全场景特性，“开发态”和“运行态”都有优势。

所谓“开发态”是指计算框架非常友好，显著减少模型训练时间和成本。而且能够适应不同的场景，包括端、边缘和云。

“运行态”友好是指能够让整个模型能够用最少的资源产出最高的效能。

mindspore天然匹配昇腾全场景系列产品，能够让不同类型的算法都可以轻松接入，这无疑降低了研发人员的调试和让代码适应场景的成本。

而且这个计算框架能够实现自动并行，这对与模型的效率则有很大影响，开发者无需投入过多的时间再去修改并行代码，能够更好的专注于模型质量。

以上两点就是计算框架的开发态以及运营态的优势。

更重要的是因为框架针对华为“昇腾”处理器有专门的优化，所以在应用效率上可以更高。

ai+超算处于爆发前夜，行业拐点也如约而至

超算和ai领域的融合，国内很多企业在做相关探索，但大多是有心无力。

为什么是华为率先引领?笔者认为有以下三个因素：

1、华为拥有技术实力。华为2019研发投入达到1317亿元，研发占比15.3%，拥有85000+专利授权。

2、华为拥有用户接受度。华为客户国家覆盖170以上，*备件中心122家以上，服务伙伴3900个以上。

3、华为拥有行业高度。华为已经成为民族企业代表，在ai超算领域构建基础框架，不仅有商业价值，也与国内新基建下的ai战略相一致。

华为凭借自身在硬件领域的多年积累和行业前瞻，以创新的达芬奇架构为开端，为国内ai+超算这个关键领域填补了空白。

总而言之，昇腾是soc、计算平台和产业生态，目前国内基于华为“昇腾”处理器已经有鹏城实验室、上海天文台等多个成功项目。从项目内容上看，既有国家重大项目，又有在天文学这类的尖端学科应用。

本次全球超算大会结束后，“昇腾”受到了各界广泛的关注，在新基建的的热潮中，将为全行业的ai化提供算力加持。

更重要的是，我们很有可能看到国内各界全面拥抱ai超算，同时拥抱华为昇腾ai的局面。

这将成为国内ai转型的关键节点。

此内容为【智能相对论】原创，仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

部分图片来自网络，且未核实版权归属，不作为商业用途，如有侵犯，请作者与我们联系。

文|编程浪子

来源|智能相对论(aixdlun)