Raja Koduri采访:GPU计算夙愿在英特尔实现 oneAPI一统异构运算
除了i740昙花一现的独显之外,英特尔似乎并不是gpu市场的主角,但在gpu计算历史上,英特尔一直不曾缺席,现在英特尔终于站到舞台*了。
在前几天的sc 19大会上,英特尔高级副总裁、首席架构师以及架构、图形与软件部门总经理raja koduri正式宣布了面向hpc高性能计算的英特尔的xe架构gpu——ponte vecchio,这是英特尔首款7nm芯片,也会用上foveros 3d、emib(嵌入式多芯片互连桥接)等先进封装技术,是英特尔hpc产品的集大成者。
在这个产品背后,英特尔及raja koduri到底有着怎样的野心?美国zdnet网站日前刊发了对raja koduri的一篇介绍,谈到了英特尔在gpu计算上的宏伟愿景。
以下是zdnet全文内容:
我们正处于高性能计算的转折点——raja koduri
十四年前,raja koduri帮助开启了gpu计算时代,这比nvidia创始人黄仁勋谈论(gpu计算)甚至还要早一年,这个想法就是——gpu不仅可以用于完成流畅的视频游戏渲染,还可以处理科学问题。
如今这个愿景已经成为现实,因为gpu成为了ai人工智能及越来越多的高性能计算的主力军。
raja koduri当时在amd公司工作,如今他成为了英特尔的首席架构师,他坐下来跟zdnet一起讨论了gpu计算是如何不断革命的。
raja koduri说,“我们正处于高性能计算的转折点上。” 二十年前,hpc高性能计算被垂直集成的架构所主导,但是之后,商业化的x86处理器在开源软件及各种库文件扩展接管了hpc计算,现在不只是hpc,所有集群都变成了x86及大量软件主导。
raja koduri表示这种软件运动正在主导新的计算时代,它可以被重新编程,像超级计算机一样强大。
“在ai及异构驱动非线性增长的情况下,我们将看到下一次周期。”
在raja koduri作出如上表态的同时,英特尔在周日宣布了新的gpu,它专门为hpc高性能计算而设计,代号为ponte vecchio。尽管还有一年多才能量产,但它可以说是一个时代的标志,是专为深度学习优化的机器。
或许比全新架构更重要的是,英特尔周日还宣布提供用于测试高性能计算的软件工具包oneapi的beta版,该api简化了跨处理器及系统的类似超算那样的编程。
这两个公告都是在美国科罗拉多州博尔德举行的第31届高性能计算、网络、存储及分析国际大会上宣布的。
有人指出oneapi某种意义上是raja koduri多年来完成的工作的一种延续,raja koduri对此表示赞同,他说amd拥有首个用于通用计算的gpu硬件——它被称为gpgpu,这比nvidia还早了两年,但“我们那时候不是从软件开始的”,这让nvidia的cuda编程工具包有了席卷整个行业的机会。
相比之下,在英特尔公司,“我说我们这次使用完全不同的方式,首先从软件开始。”
raja koduri指出,“在过去的18个月中,我们已经有1000多名工程师付出了巨大的努力。”
当然,对英特尔来说,(oneapi的)挑战在于它不像nvidia那样只出售一种gpu芯片,英特尔有着各种不一样的处理器,包括至强、ponte vecchio及未来的gpu、mobileye自驾芯片、movidius视觉计算芯片、agilex fpga芯片及nervana神经网络芯片。
raja koduri之前在amd工作时,他讲过一个比喻,厂商提供的芯片好比餐厅,英特尔提供的实际上是自助餐,种类繁多,但所有人需要的就是汉堡、奶昔这样的简单产品,后者正是nvidai提供的。
raja koduri表示要为英特尔的客户提供便利依然面临着同样的挑战,raja koduri称“我们的客户不想跟(复杂的)异构运算打交道”,“这就是为什么oneapi可以在运行在抽象层的原因”,cpu是英特尔历史上唯一一种大规模通用平台架构,oneapi旨在成为桥梁,以同样的方式实现大规模的异构运算。
当被问到英特尔是否对客户可以充分利用oneapi及所有芯片充满信心时,raja koduri表示“这是一个好问题。”
“我们提供分析事物的工具,甚至在客户移植代码之前就能告诉他们这些代码是否会在gpu上高效运行,这些工具可以使得人们更容易部署硬件,是否对他们的数据中心有益也能很快想到结果。”
raja koduri称ponte vecchio gpu芯片将采用英特尔的7nm工艺生产,距离量产还有一年多的时间。
ponte vecchio将成为美国aurora极光超算的一部分,这是一套价值50亿美元的超算,预计会安装在美国伊利诺伊州的阿贡国家实验室,由美国超算厂商cray及其他供应商一起建造。
raja koduri拒绝透露有关此gpu与其他厂商的gpu架构的不同细节,他强调说“该架构有多种运行模式,与当前其他架构的gpu相比更具灵活性,可以映射更多的工作负载,同时在这个新架构上英特尔还有全新的矢量处理方法。”
raja koduri称目前还没有公布一些细节,简单来说就是英特尔在这个gpu芯片的晶体管上针对hpc做了优化。当被问到是否在ponte vecchio gpu上取消了传统gpu的一些单元,比如着色器、内存一致,raja koduri表示英特尔的选择是优化支持现有软件,以便维护现已安装的gpu编程的价值,但是英特尔也作出了选择,删除那些hpc运算不需要的东西。
上一篇: AMD Zen 3架构完工:IPC性能将至少提升15%
下一篇: xshell5运行hadoop集群