AMD苏姿丰谈AI策略:与Intel、NVIDIA截然不同
hot chips 31本周在美国硅谷举办,两款最大的芯片发布引人注意,分别是cerebras最大的深度学习芯片wse,还有赛灵思发布全球最大的fpga。intel发布的两款ai芯片nervana nnp-t/nnp-i同样备受关注。
不过,amd在hot chips期间并没有获得巨大的关注,这或许是因为在当今ai大热的情况下,他们采用“观望式”的ai策略。
intel、amd和nvidia如何预估ai市场?
nvidia预计,其数据中心和人工智能潜在市场(tam)到2023年将达到500亿美元。这包括hpc(高性能计算),dlt(深度学习训练)和dli(深度学习推理)。
intel估计,其dlt和dli 潜在市场在2020年将达到460亿美元。
amd尚未发布任何关于深度学习潜在市场的预测,因为它更专注于从intel和nvidia获得市场份额。因此,也没有看到amd有专注于人工智能的芯片。
不过,amd首席执行官苏姿丰(苏姿丰)表示,amd正在努力成为人工智能领域更重要的参与者。
苏姿丰:cpu的局限性
任何计算性能的讨论都始于摩尔定律,但摩尔定律正在放缓。摩尔定律指出,随着芯片尺寸缩小和晶体管密度增加,计算性能将每两年翻一番。
在anandtech hot chips 31的报道指出,苏姿丰在主题演讲中解释说,amd通过各种方式改善了cpu的性能,包括工艺制程、芯片面积、tdp(热设计功耗)、电源管理、微体系结构和编译器。
先进工艺制程的贡献最大,这使得cpu的性能提升了40%。增加芯片尺寸也可以带来两位数性能的提升,但这不符合成本效益。
amd通过微体系架构将epyc rome服务器cpu ipc(每个周期的指令)在单线程和多线程工作负载中分别提升了23%和15%。高于行业平均5%-8%的水平。上述所有方法在两年半内都会使性能翻倍。
苏姿丰:人工智能所需的加速计算
苏姿丰表示,一方面,摩尔定律正在放缓。另一方面,世界上最快的超级计算机的性能每1.2年翻一番。这意味着过去十年的解决方案将失效。
该行业目前的需求是优化系统的各个部分,使其成为人工智能工作负载的理想选择。她解释说,asic和fpga的每瓦特性能最高,cpu最低,通用gpu在每瓦性能方面介于cpu和fpga之间。
苏姿丰指出,每个人工智能工作负载都有不同的计算要求。互连技术是解决方案,因为它将不同的部分互连到同一个系统。她用以下例子解释了这一点:
- namd(纳米级分子动力学)工作负载取决于gpu
- nlp(自然语言处理)工作负载在cpu、gpu、内存带宽和连接性之间保持平衡
业界使用传统方法提高了cpu和gpu的性能。苏姿丰强调,业界应该通过关注互连,i/o、内存带宽、软件效率和软硬件协同优化来提高性能。
amd的ai策略
苏姿丰表示,amd已采用cpu / gpu /互连策略来挖掘人工智能和hpc的机会。
她说,amd将在frontier超级计算机中使用其所有技术。该公司计划为实现超级计算机全面优化其eypc cpu和radeon instinct gpu。它将通过其infinity fabric总线技术进一步增强系统性能,并通过其rocm(radeon open compute)软件工具解锁性能。
与intel和nvidia不同,amd没有专用的人工智能芯片或专用的加速器。尽管如此,苏还指出,“我们绝对会看到amd在人工智能方面是一个很重要的参与者。”
amd正在考虑是否要建立一个专用的ai芯片,这一决定将取决于人工智能如何发展。
苏姿丰补充说,许多公司正在开发不同的人工智能加速器,如asic、fpga和张量(tensor)加速器。这些芯片将缩小到最可持续的状态,然后amd将决定是否构建可以广泛应用的加速器。
与此同时,amd将与第三方加速器制造商合作,并通过其infinity fabric互连将其芯片与自己的cpu / gpu连接。这个策略类似于其光线跟踪策略,nvidia去年推出了实时光线跟踪,但amd并没有急于推出这项技术。
不过,苏姿丰表示amd将在生态系统完善并且该技术被广泛采用的情况下引入光线跟踪技术。
鉴于amd是一个相对较小的玩家,与拥有充足资源的大型玩家竞争,上述策略具有经济意义。
在已经建立的市场中分享份额可以减少因采用率低而导致产品失败的风险,并保证最低的回报。
amd ai战略与intel和nvidia战略的不同
amd在开发ai芯片之前采用了观望态度。他们现在做的,是利用其现有技术来满足ai工作负载。
intel开发了全面的技术,包括xeon cpu、optane内存、altera fpga和互连技术。也在开发独立gpu xe。
在hot chip 31中,intel推出了专用于深度学习训练和深度学习推理的nervana ai芯片。intel的芯片由自己生产,虽然这使intel能够更好地控制其技术,但需要大量的时间和资源。
nvidia的ai策略是提供通用gpu以及可用于任何ai应用程序的cuda软件支持。它还具有nvlink互连技术。英伟达正与合作伙伴共同探索人工智能新市场。虽然这种策略需要大量研究并且有很高的失败风险,但这些高风险也会带来高回报。