欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  移动技术

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

程序员文章站 2022-04-05 22:01:41
10月23日,在北京召开的2019 arm技术峰会上,arm正式发布了全新的ethos-n77/n57/n37系列npu ip,进一步加码人工智能(ai)计算。 与此...

10月23日,在北京召开的2019 arm技术峰会上,arm正式发布了全新的ethos-n77/n57/n37系列npu ip,进一步加码人工智能(ai)计算。

与此同时,arm还推出了针对主流移动游戏市场的高能效的mali g57 gpu和针对主流及入门级市场的单位面积最高效的mali-d37 dpu。

armv8及后续架构将不受限制的继续支持中国合作伙伴!

今年9月25日,arm中国在深圳召开媒体沟通会,针对此前外界盛传的“arm断供华为”一事,arm表示与华为仍是合作伙伴,armv8及后续指令集可继续授权!

10月23日,在2019 arm技术峰会北京站上,arm董事长兼ceo吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是armv8,还是后续的架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

此外,吴雄昂还指出,arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于arm架构的芯片已超过了160亿颗,国产soc芯片95%都是基于arm架构的。

吴雄昂强调,arm是唯一非源于美国的主流计算架构。arm中国承接arm在中国的业务和技术,在arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。

加码ai计算,arm发布ethos系列npu ip

根据arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的ip camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。

而随着ai技术的兴起和广泛应用,ai对于芯片的算力也提出了更高的要求。作为全球最大的处理器ip供应商,arm的cortex cpu和mali gpu在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在ai计算领域,arm此前一直都是依托于其cortex cpu、mali gpu及相关软件开发工具来提升其ai计算的能力。

但是,传统的cpu、gpu核心并不是ai计算的最佳载体。因此越来越多的芯片厂商开始推出了ai专用芯片,或者在soc当中加入ai计算专用的npu内核。

比如华为2017年就率先推出了集成npu内核的麒麟970处理器,同时苹果推出的a11处理器也首次集成了npu内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在soc当中集成自己的npu内核。

在此趋势之下,为了应对市场对于ai内核的需求,arm在2018年年初也公布了针对ai的project trillium项目,其中就包括了全新的机器学习处理器ip、目标检测处理器ip和神经网络软件库。经过了近两年的时间,现在project trillium项目的成果也开始正式产品化。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?
▲arm市场营销副总裁ian smythe

今天,arm市场营销副总裁ian smythe在arm技术峰会上正式发布了全新的ethos系列npu ip,包括针对高端市场的ethos-n77、针对主流市场的ethos-n57和低端市场的ethos-n37。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

ethos-n77实际上就是arm去年公布的project trillium项目中的那款机器学习处理器ip,其内部集成了可配置的1-4mb的sram,在1ghz主频下,7nm工艺下,可以提供最高4 tops的ai算力,每瓦性能高达5 top。另外,之前proj

m项目公布的数据显示,ethos-n77的单位面积算力为4.6 tops/mm?(最新发布的可能有进一步提升)。

那么ethos-n77的这个性能在市场上处于什么水平呢?

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

根据资料显示,华为麒麟970 npu是基于寒武纪1a ip,算力是1.92tops。而苹果a11的npu算力仅为 tops,a12的npu性能为5tops。而根据此前高通骁龙855发布之时的数据显示,其整体(包括cpu+gpu+dsp等)的ai算力(超过7 tops)是华为麒麟980的两倍,照此估算的话,0.6麒麟980的npu性能大概在3.5 tops左右。

另外据了解,华为麒麟980的npu是基于寒武纪ih8,是针对低功耗场景视觉领域的npu内核ip,而寒武纪ih8有 4 种可选的配置1t、2t、4t、8t ops@1ghz,麒麟980应该是4tops的版本。而麒麟990系列的npu并未公布具体的ops数据,不过其采用了全新的达芬奇架构以及两个大核+一个小核的配置,性能应该更强。

在单位面积的算力方面,根据芯智讯此前的估算,麒麟970的npu的单位面积性能大概是1.48 tops/mm2,而麒麟980和990没有相应数据可以参考。而根据techinsights的拆解,苹果a12的npu内核的面积为5.79mm2,也就是说苹果a12的npu的单位面积算力约为0.86tops/mm2。

在每瓦算力方面,华为公布的资料显示,麒麟810的每瓦算力可以达到6tops。苹果的npu未有相应数据。寒武纪新的npu内核1m在7nm下每瓦性能为5tops。

从上面的数据对比来看,ethos-n77的ai性能与苹果a12和麒麟980的npu相当,相比麒麟990系列的npu性能可能要弱一些。在单位面积算力方面,远高于苹果a12和麒麟970的npu。在每瓦算力方面,也是远高于苹果a12的npu,略低于麒麟810。

综合来看,arm ethos-n77各方面都还是比较出色的,达到了目前旗舰级npu的水准。

需要指出的是,4 tops的性能是单个ethos-n77核心在1ghz主频下的性能,如果配置双核的话,那么性能无疑将进一步提升,当然功耗和面积会进一步提升。

arm此前就表示,ethos系列ip是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 gops到超过70 tops的产品。

另外,arm还推出了针对主流市场的ethos-n57,内置了512kb sram,在1ghz主频下,算力最高可达2tops;而针对低端市场的ethos-n37,是为了提供面积最小的ml推论处理器(小于1mm?)而设计,其同样也内置了512kb sram,在1ghz主频下,算力可达1tops。

arm表示,ethos-n57和ethos-n37针对int8与int16数据类型的支持性进行了优化,通过如创新的winograd技术的落地,使性能比同类npu提升超过200%,并且配备了先进的数据管理技术,以减少数据的移动与相关的耗电,在ml在性能与成本、面积、带宽与电池寿命之间达成了比较好的平衡。

据芯智讯了解,除了移动市场之外,arm的ethos系列ip未来也将会开始进入物联网、工业、汽车、网络以及服务器市场。

开源的ai开发框架arm nn

我们都知道,此前高通骁龙845/855系列都并未内置专门的npu内核,但是其仍然提供了较高的ai能力,而这一切得益于其神经网络引擎neural processing engine的助力。即采用更为弹性的异构的机器学习架构,在通用平台内做内核优化,使得ai计算合理的分布在cpu、gpu、dsp等每个单元上,从而可以针对不同移动终端提供弹性调用各个处理单元来进行ai计算。

而arm此次在发布ethos系列npu ip的同时,也推出了开源ai开发框架arm nn,强化异构的ai计算,进一步提升整体的ai性能。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

据介绍,arm nn是属于偏底层的架构,而且在其基础之上,可以支持其他的更高层级第三方的nn框架,并提供完整工具链,可实现在ai计算上对于arm cpu/gpu/npu内核的合理调用,实现更高效的异构的ai计算。

arm表示,由于不同的soc对于ai的加速方法是不一样的,因此第三方应用及开发者要用到片上系统的加速能力是比较困难的。而开源的arm nn的推出,将降低开发者调用arm内核的难度,进一步提升开发人员的体验。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

此外,为了推进基于arm nn的内容创建和开发,arm还与unity(unity最目前主要的3d引擎,50%的3d游戏,75%的vr内容都是基于unity引擎开发)达成合作,进一步优化unity引擎,使得基于unity的开发者能够更容易的访问和更高效的利用arm的内核,在arm cpu/gpu/npu之间获得更好的性能。可以实现一次开发,即可获得arm全系列的内核的支持(即可支持众多基于arm不同类型的内核的soc),无需再重新编译。

mali g57 gpu:为主流市场带来智能与沉浸式体验

今年6月,arm针对高端市场推出了首款基于全新valhall架构的gpu——mali-g77。今天,arm针对游戏市场推出了第二款基于valhall架构的高性能、高能效的gpu内核——mali-g57。(vahall架构进一步提升了并行执行的能力,同时在代码上也做了尽量的简化,从编译角度来讲也更加友好。)

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

据介绍,mali-g57的性能相比上一代的mali-g52在能效上提升了30%,性能密度提升了30%,机器学习性能提升了60%。并且mali-g57还加入了针对虚拟现实(vr)提供注视点渲染支持,再加上机器学习性能的提升,可以支持更复杂的xr实境应用。而且,mali-g57还支持1-6个核心的配置,可以满足不同市场定位的智能手机的需求。

arm表示,mali-g57可以将优质的智能与沉浸式体验带到主流市场,包括高保真游戏、媲美电玩主机的移动设备图型效果、dtv的4k/8k用户接口,以及更为复杂的虚拟现实和增强现实的负荷。

mali-d37:arm单位面积效率最高的dpu

在今天的技术论坛上,arm还推出了目前单位面积最高效的显示处理器mali-d37。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

据介绍,mali-d37是arm第一个面向主流市场的基于komeda架构dpu,拥有极高的单位面积效率,在支持全高清(full hd)与2k分辨率的组态下,16nm制程的面积将小于1mm?。

在性能方面,mali-d37保留了高阶的mali-d71关键的显示功能,包括与assertive display 5结合使用后,可混合显示高动态对比(hdr)与标准动态对比(sdr)的合成内容。另外,mali-d37其通过将部分gpu核心显示的工作负载卸载到mali-d37来工作,以减少gpu的工作以及对于内存的访问,使得系统的功耗可以降低30%。

arm表示,mali-d37可以支持入门级智能手机、平板电脑等成本较低的设备,获得2k级别的视觉效果与性能支持。

arm的通用型npu能否获得成功?

从目前的市场趋势来看,ai芯片正越来越向专用化的方向发展,越来越多的算法厂商也都纷纷基于自身的算法推出了自己的ai芯片。同样,正如前面我们所提到的,目前华为、苹果、高通、三星、展锐等众多的手机芯片厂商也都有推出自己的npu内核。那么arm的“通用型”的ethos npu ip真的有市场吗?

对此,arm市场营销副总裁ian smythe表示,arm的ethos npu ip并不是孤立存在的,其主要的优势在于,在其本身提供出色的ai性能的同时,可以更好与arm的cpu、gpu进行协同,以实现异构的ai计算,从而进一步提升整个系统层级的ai性能、降低功耗。而且,目前ai市场还是在初期,很多的ai算法仍在快速迭代,选择“通用型”的npu是比较安全的做法。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

在采访当中,ian smythe向芯智讯确认,arm的ethos npu ip也可被集成于比如risc-v等其他架构的soc当中,但是ian smythe也强调,这样并不能发挥出ethos npu与其它非arm cpu/gpu在ai计算上的协同优势。

另外,arm的ethos npu ip还实现了对于高中低阶的全面覆盖,但是目前众多的芯片厂商主要还是在其高端soc当中集成了npu,而随着ai计算向边缘侧部署的趋势,未来市场对于npu的需求也将会越来越大。ethos npu ip的推出,将可帮助芯片设计厂商更简单、更低成本的获得不同档位的npu内核的支持。

另一方面,目前的android应用生态基本都是基于arm架构的处理器,因此,如果采用arm的ethos npu ip,结合开源的arm nn框架,应用开发者将可以更简单、高效的调用arm的cpu/gpu/npu内核,可以为用户带来更为出色的ai体验。而且,可以实现一次开发,即可获得arm全系列的内核的支持(这也意味着,可支持众多基于arm不同类型的内核的soc),无需再重新编译。而对于其他的芯片厂商的npu来说,开发者要想实现灵活高效的调用npu,充分发挥其ai性能,则需要针对性的进行优化,而且还需要其提供相应的权限和工具。即便是开发者开发应用实现对于a厂商的npu调用,同样的应用要想实现对于b厂商npu的调用,可能需要重新进行编译。显然,对于应用开发者来说,arm的npu所具备的生态优势无疑是其他厂商所无法比拟的。

最后,ian smythe强调,arm对于ai性能的提升是多维度的,一方面会持续推出更高性能的npu ip,同时也在不断提升arm cpu/gpu的ai性能。

可以卖给中国!ARM发布全新Ethos NPU:华为会用吗?

值得一提的是,ian smythe在演讲当中透露,arm在下下一代的大核架构matterhorn当中,加入matrix multiple(matmul),令其ml(机器学习)性能与前代cpu相比提升一倍。