最强AI训练集群华为Atlas 900首次在AI超算领域应用

程序员文章站 2022-05-22 21:58:16

两个月前的全联接大会上，华为发布了目前全球最快的训练集群atlas 900。不过，设计和制造出强大的硬件对于硬件提供商而言并非最困难的事情，能否将其应用于不同领域体现出...

两个月前的全联接大会上，华为发布了目前全球最快的训练集群atlas 900。不过，设计和制造出强大的硬件对于硬件提供商而言并非最困难的事情，能否将其应用于不同领域体现出其价值才是成功的标志。

本周五，鹏程实验室联合华为在深圳发布鹏城云脑ⅱ基本型系统发布会，这是atlas 900第一个外部应用案例。这不仅代表着华为鲲鹏和昇腾双引擎计算战略的向前迈进，也是华为在5g+ai时代能否保持领先的关键。

atlas 900落地鹏城云脑ⅱ

atlas 900由数千颗昇腾910 ai处理器互联构成，每颗昇腾910 ai处理器内置32个达芬奇ai core，单芯片提供比业界高一倍的算力（256tflops@fp16），总算力可达到256p～1024p flops @fp16。atlas 900发布时，华为给出的数据是在fastest cluster resnst-50@imagenet测试中，华为成绩为59.8秒，比第二名70.2秒的成绩高出了10秒多。

峰值算力和测试成绩是判断硬件性能很好地指标，但实际中的应用效果更为关键。在atlas 900发布之时，华为就介绍其联合上海天文台与ska共同打造的，一张南半球的星空图有20万颗星星，当前条件下，天文学家要从这20万颗星星中，找出某种特征的星体，相当困难，需要169天的工作量。用上atlas 900，只用10秒，就从20万颗星星中检索出了相应特征的星体。时间从169天缩减到10秒就是atlas 900实际应用效果最直观地说明。

另外，全联接大会上，中国工程院院士、鹏城实验室主任高文院士也分享了鹏城实验室基于华为atlas 900集群打造鹏城云脑ⅱ的平台规划。两个月之后的2019年11月29日，鹏城云脑ⅱ基本型系统正式发布。高文院士介绍，鹏城云脑ⅱ原型系统实现了100 pflops的算力，并计划到明年底扩展至1000 pflops级ai算力。

据悉，双方目前正在联合攻坚ai集群的规模进化以及ai功能的进化，解决散热、组网等影响集群扩展的关键问题，为实现明年1000 pflops级ai算力。

1000pflops是个什么概念？2019 年6月开始，超算 top500 的入门门槛超过 1pflops（每秒一千万亿次浮点运算），这是全球超算 top500 榜单 26 年以来的又一历史性突破。根据top500本月发布的最新一期超算排行，排名第一的美国超算summit（顶点）的性能为148.6 pflops。接下来，超算的竞赛将进入exascale计算（百万兆级的计算，也可称e级超算）时代，也就是1000pflops级。

不过，以atlas 900为基础的鹏城云脑ⅱ是ai计算集群，虽然性能将达到e级，但主要是面向ai计算，与top500的超算系统还有所区别。

需要补充的是，鹏城云脑是鹏程实验室的人工智能开放开源平台，鹏城云脑面向全国，为人工智能基础研究和应用基础研究提供多层次、多样化的资源环境支撑，服务我国人工智能领域创新发展。此前的2018年一期工程中，鹏城云脑初步建成上线运行了以“鹏城云脑-1”为核心的p级计算系统。

在鹏城云脑ⅱ原型系统发布的当天，鹏城实验室与深圳市*就一系列重大项目签约，向卫生健康、*交警、巴士交通、政务等场景提供鹏城云脑强大的ai算力，支撑市政重大项目智慧升级。

另据雷锋网了解，不断进化、动态升级的鹏城云脑还将持续向国内外的科研机构、高等院校等组织提供云端ai算力，充分发挥华为atlas 900集群的优势，搭好科学研究和探索的地基。

华为高级副总裁、cloud & ai产品与服务总裁侯金龙（左）与鹏城实验室主任高文（右）出席鹏城云脑ⅱ发布会

atlas 900与华为5g+ai的未来

至此，atlas 900已经在内部和外部都已经落地，但其可以更多地应用于科学研究与商业创新，如天文探索、气象预测、自动驾驶、石油勘探等领域。并且在实际应用中享受到高算力带来的优势。

做一个简单的对比，要实现256 pflops的算力，经测算如果使用通用cpu需要6195个机柜，使用gpu需要208个机柜。而基于昇腾架构对深度学习业务的优化，以及芯片优化之外增加的如板级液冷、柜级密闭绝热等系统级优化， atlas 900集群使用16个机柜就能实现256 pflops的算力，并且将功耗从40000千瓦降低至736千瓦，实现更高性价比。

当然，将atlas 900中既有昇腾系列ai处理器，也有鲲鹏系列cpu。华为在全联接大会上推出了鲲鹏和昇腾双引擎的计算战略。华为技术有限公司cloud&ai产品与服务总裁侯金龙近日接受雷锋网等媒体采访时表示：“这两个计算引擎将会应用于向各个行业，我们认为ai+5g+云会使能各个行业，使各个行业进入智能时代。目前除了鹏城实验室的鹏城云脑外，金融、智慧城市、电力、交通、互联网等行业都采用了鲲鹏和昇腾这两个计算引擎。”

还需指出的是，硬件生态的强大还需要软件生态的协同，英特尔和英伟达在高性能计算领域的成功就是很好地例子。因此，在近一年的时间里，华为相继推出训练和推理框架mindspore、芯片算子库和高度自动化算子开发工具cann、一站式ai开发管理平台modelarts。并且这些软件和硬件覆盖了云、边、端。

不仅如此，华为还计划打造强大的生态。侯金龙介绍，计算产业的核心就是开发者生态，华为计划在未来三年会投资15亿美元发展开发生态。希望和各个高校一起，基于鲲鹏和昇腾的计算架构体系联合各个高校开发教材，让学生至少可以学习我们这个体系。

他还透露，明年2月份鹏城云脑和华为会举办一个开发者大会，规模将超过两万人。

雷锋网小结

对于任何一家芯片提供商而言，设计出性能和功耗都具有优势的芯片只是迈向成功的第一步，只有获得用户的认可并且持续迭代芯片才能视为芯片的成功。对于华为而且，基于其技术和客户的积累，推出新的硬件更容易获得应用，所以我们看到atlas 900发布两个月后就已经有两个应用案例。但正如atlas 900是一个复杂的系统一样，华为要在5g和ai的时代胜出，除了硬件，强大的软件和开发者生态都至关重要，我们也看到了华为在这些方面的投入。至于结果会如何，我们将保持关注。

上一篇：深泽直人打造 realme X2 Pro大师版红砖预售：3199元

下一篇：希捷发布首款双磁臂硬盘银河2X14：性能翻番微软力挺

最强AI训练集群 华为Atlas 900首次在AI超算领域应用