ARM新十年 能否实现CPU计算“统治”?
本周三,arm发布了最新一代架构armv9,这一架构是在目前已经广泛使用的armv8的基础上,面向未来十年的新一代架构。
雷锋网了解到,armv9架构有三个系列,分别是针对通用计算的a系列,实时处理器的r系列,微控制器的m系列,预计未来两代移动基础设施cpu的性能提升将超过30%。首款基于armv9架构cpu的移动处理器最快将在今年底问世,可能来自mediatek。
armv9架构的初代版本增强了安全性、机器学习、dsp性能,armv9架构未来也将持续增强这些性能,并将加入新特性。
最近几年,arm架构处理器已经从智能手机为代表的终端向对性能要求更高的pc、数据中心延伸。从最新的发布可以看到,arm希望armv9架构 cpu以及基于其gpu、npu处理器能够无处不在。如果arm的目标能够实现,是否可以实现cpu计算统治?arm的第三个1000万出货目标多久能够达成?
安全是发挥计算架构潜能最大的挑战
armv9架构的发布会上,安全性被频频提及,与安全相关的技术和介绍的篇幅也很长。arm高级副总裁、首席架构师兼技术院士richard grisenthwaite解释称,“我看来,计算若要充分发挥潜能,安全是最大的挑战,越来越多的私人数据被存放在计算系统中,这让这些数据成为安全攻击的诱人目标。今年网络犯罪损失的金额预估高达6万亿美元。”
因此,armv9架构在安全性方面做了多方面的工作。首先是引入了arm机密计算架构(confidential compute architecture, cca),机密计算通过打造基于硬件的安全运行环境来执行计算,保护部分代码和数据,免于被存取或修改,甚至不受特权软件的影响。
arm cca将引入动态创建机密领域(realms)的概念,机密领域面向所有应用,运行在独立于安全或非安全环境之外的环境中,实现保护数据安全的目的。比如,在商业应用中,机密领域可以保护系统中商用机密数据和代码,无论它们正被使用、闲置或正在传输中。
据悉,arm会在今年下半年公布arm cca的更多信息。
内存标签扩展是armv9架构的另一项安全技术。richard grisenthwaite说:“在分析了全球软件报告的大量安全问题后,我们发现许多问题的根源实际上与过去内存安全的老问题有关。这些问题已经困扰计算领域50年,两个持续多年特别常见的内存安全问题——缓存溢出和释放后重用。很大一部分的问题是,这些内存安全漏洞被利用之前就能发现问题,这是提高全球软件安全至关重要的一步。”
arm持续与谷歌合作开发的“内存标签扩展”技术,可以在软件中查找空间和时间内存安全的问题,允许软件将指向内存的指针与标签建立关联,并在使用指针时检查这个标签是否正确。
richard称,内存标签扩展是明年上市的第一代armv9 cpu不可或缺的一部分。支持内存标签扩展的软件也正被引入到安卓11系统和opensuse。
arm还与剑桥大学在其cheri架构上合作多年,从架构底层来提升安全性。据介绍,cheri架构定义了可提供这种封装能力的硬件功能,这在未来将可能促成一个本质上更为安全的计算平台,但这也会使某些系统的变成方式产生重大改变。
不过,这种架构arm已经在和其合作伙伴探索,如果成功,会在未来5-6年引入armv9架构,成为armv9架构主要的组件之一。
未来两代armv9架构cpu性能提升将超过30%
安全性是计算架构的基础,性能提升则是满足越来越高的计算需求以及多样化计算需求的关键。arm预计,新一代架构armv9将保持超过业界cpu性能提升的速度,未来两代移动和基础设施cpu的性能提升将超过30%。
richard强调:“这个数据是根据业界标准评测工具来衡量,30%的算力提升完全是凭借于本身架构而不是借助于制程工艺来实现。”
计算性能提升非常重要的驱动力就是ai,statista research department今年1月发布的最近报告估计,到21世纪20年代中期,全球将有超过80亿台搭载ai语音辅助的设备。不同设备对于ai性能的需求不同,也就需要不同的ai处理器。
arm与富士通合作开发了可伸缩矢量扩展(scalable vector extension, sve)技术并用在了全球最快的超级计算机“富岳”上。在sve的基础上,armv9中使用了新开发的sve2技术,增强了对在cpu上本地运行的5g系统、虚拟和增强现实以及ml工作负载的处理能力,能够提供实现增强的机器学习和数字信号处理能力。
“我们还将通过提升频率、带宽、缓存大小、并减少内存延迟,以最大化cpu 性能。”richard表示。
在解决新问题的过程中,arm加入了一些复杂技术,这是否违背了精简指令集(risc)的初衷?richard的观点是:“arm架构的精简指令(risc)核心没有改变,我们依然遵循着注册到注册(registration to registration) 的操作原则,所以从硬件的角度来看,arm指令集仍然保持着精益性。”
arm称,除了大幅增强cpu内的矩阵乘法,mali gpu和ethos npu也会持续进行ai创新,扩展arm的技术能力。
统治cpu计算
目前,cpu领域最成功的架构当属x86,不过x86的成功和统治力在于pc和高性能计算市场,在arm擅长的智能终端市场并不成功。近几年,arm架构在高性能计算领域取得了一些进展,包括上面提到的“富岳”超级计算机,以及推出采用arm架构的多款服务器。去年,苹果m1处理器macbook pro电脑的推出,也让业界看到了x86架构在pc市场的统治地位并非牢不可破。
arm首席执行官simon segars说,“arm芯片实现1000亿颗的出货花了26年,如果预测准确,接下来一年,我们的合作伙伴出货的arm芯片将累计达到2000亿颗。也就是说,我们的第二个1000亿的出货将在短短5年内达成。”
雷锋网了解到,目前arm架构的芯片出货已经超过1800亿颗,armv9架构会成为实现arm芯片3000亿颗芯片出货的先驱。没有人能准确预估arm实现第三个1000亿颗芯片出货的时间,但可以明确的是arm希望其芯片能够为所有智能计算提供算力,也就是让其芯片在未来无处不在。
为了实现这个目标,同时满足行业从通用计算向普遍的专用处理发展的需求,arm也开始强调全面计算的理念。全面计算设计方法包含arm的cpu、gpu、npu,通过将全面计算的设计原则应用在包含汽车、客户端、基础设施和物联网解决方案的整个ip组合中。
与此配合,arm也需要在标准化程度上取得平衡。richard说:“如果过多的标准化,那么合作伙伴将无法开发合适的专用解决方案。而如果太少的标准化,我们得承担低价值、形同实异的解决方案的风险。这将让软件生态系统的成本增加、且毫无益处。”
arm在服务器领域中已经看到了标准化平衡的价值,推出了“服务器基础架构sbsa”和相关的认证计划“服务器就绪”。
“我们也正在扩大标准化的范围,arm systemready将服务器就绪计划的概念从云端延伸到物联网边缘等广泛的设备上,以实现通用操作系统及虚拟机管理程序之间的交互运作。”richard说。
如果arm的全面计算以及标准化探索成功,从终端到边缘再到云端,arm是否就能够实现在未来的计算统治?实现3000亿颗甚至更多芯片出货又会有多快呢?
小结
现在看来,有两大方面的阻碍,一方面是在复杂的国际形势下,同属精简指令集的risc-v正在快速发展,加上x86阵营intel和amd也在加强x86的竞争力,arm要真正撼动x86的优势领域并非易事。
另一方面,中国作为芯片进口的大国,arm与nvidia的收购交易,以及美国对中国领先芯片设计公司的出口限制,让客户产生担忧。
对于armv9是否以供给包括华为在内的中国企业的问题,arm的官方回复是:“arm既有源于美国的ip,也有非源于美国的ip。经过全面的审查,arm确定其armv9架构不受美国出口管理条例(ear)的约束。arm已将此通知美国*相关部门,我们将继续遵守美国商务部针对华为及其附属公司海思的指导方针。”
这样的回复,不知你怎么看?
- the end -