5种工艺、1000+亿晶体管！Intel Xe HPC*计算卡秀肌肉

程序员文章站 2022-04-05 11:04:52

我们知道，intel xe gpu架构分为四个层级，或者说四种微架构，其中以上是的xe lp低功耗版仅供核显、入门独显，即将到来的xe hpg高性能图形版面向中高端游戏显卡，xe hp高性能版适合加速...

我们知道，intel xe gpu架构分为四个层级，或者说四种微架构，其中以上是的xe lp低功耗版仅供核显、入门独显，即将到来的xe hpg高性能图形版面向中高端游戏显卡，xe hp高性能版适合加速计算、ai、ml等但所知最少，xe hpc高性能计算版则是最*的存在，主攻大型数据中心、超算。

xe hpg微架构的alchmest(dg2)之前已经聊过了，这里来看看xe hpc和首款产品ponte vecchio，竞争对手是nvidia a系列、amd instinct系列。

当然，它们距离普通人非常非常遥远，但却是技术实力的最高体现。

xe hpc架构的基础也是xe核心(xe core)，但因为面向的是计算而非图形，内部结构有所不同，包括8个512-bit矢量引擎、8个4096-bit矩阵引擎，数量对比xe hpg都减半，但位宽分别翻了一倍、两倍，算力更凶猛。

矢量引擎每时钟周期可执行256个fp32、256个fp64、512个fp16等数据操作，矩阵引擎则每时钟周期支持2048个fp32、4096个fp64、4096个bf16、8192个int8。

与矢量引擎、矩阵引擎搭档的，是一个更宽的宽加载/存储单元，每个时钟周期取回512字节数据。

每个xe核心集成512kb一级数据缓存，这是目前业内最大的，而且可以通过软件配置作为暂存区使用，又称共享内部显存。

xe核心的上一层级叫做“切片”(slice)，不同于xe hpg上的渲染器切片(slice)，毕竟一个是做计算，一个是做图形渲染。

xe hpc每个切片集成多达16个xe核心，四倍于xe hpg渲染切片的规模，同时还有8mb一级缓存、16个光追单元、一个硬件上下文(hardware context)单元，其中光追支持光线遍历、边界框相交、三角形相交，提供固定函数计算。

硬件上下文单元大家可能比较陌生，它能让gpu同时执行多个应用，而无需昂贵的基于软件的文本切换。

切片的上一级则是“堆栈”(stack)，至此才算一个完整的gpu。

一个堆栈包含4个切片，因此总计64个xe核心、64个光追单元、4个硬件上下文。

同时，堆栈内还有大规模二级缓存、4个hbm2e内存控制器、1个媒体引擎、8个xe链路，以及拷贝引擎、pcle控制器。

xe hpc架构是可以轻松扩展的，支持多堆栈设计，属于业内首创，依靠的是emib封装和堆栈间互连通道，可保持堆栈之间的内存一致性。

比如这是双堆栈，整体规模直接翻番，它就是后边要说的首款ponte vecchio，但看架构图，似乎不支持四堆栈。

不同的xe hpc gpu之间通过xe链路互连，支持最多8颗并行，算力直接暴力乘以8。

ponte vecchio作为基于xe hpc架构的首款产品，一切的一切都是全新的，包括验证方法、软件、可靠性方法、信号完整性机制、互连、供电、封装、i/o架构、内存架构、ip架构、soc架构。

ponte vecchio是个庞然大物，集成晶体管数量突破1000亿个，使用5种不同的制造工艺，在内部封装了多达47个不同的单元(tile)，包括计算单元、rambo缓存单元、foveros封装单元、基础单元、hbm单元、xe链路单元、emib单元，等等。

如此复杂的芯片设计，面临的挑战自然是空前的，首席架构师masooma bhaiwala直言这是她30年来设计的最复杂的芯片，堪称制造奇迹。

其中，foveros 3d封装是一个关键，最终的数据传输速度不得不提高到最初规划的1.5倍，以便以把foveros连接数量降至最低，但依然比之前任何设计都高了两个数量级。

开发团队还必须在设计初期就锁定foveros在所有单元上的位置，这意味着必须一开始就搞定整个平面图布局，中途也不允许有明显变更。

芯片设计和验证也是全新流程，为此开发了大量新的工具、方法、脚本，并独立安排4个主要单元，开发各自的调试软件包，分而治之，加速开发，最终在soc整体封装完成几天内就成功启动，运行了hello world。

再来看几个关键的部分，计算单元采用台积电n5 5nm工艺，每个集成8个xe核心、4mb一级缓存，foveros封装凸点间距36微米。

基础单元是一个连接器，所有复杂的i/o和高带宽组件都在这里汇聚，包括pcie 5.0总线、hbm2e内存、mdfi链路、emib桥接，几乎是在挑战物理极限。

它采用intel 7工艺、foveros封装，面积达640平方毫米，集成了多达144mb二级缓存。

xe链路单元是台积电n7 7nm工艺制造，负责不同gpu之间的连接，是面向hpc、ai的纵向扩展的关键，每个单元有8条，实现了最高90g serdes，可以满足“极光”（aurora）这样百亿亿次级级超级计算机的需求。

ponte vecchio目前处于a0版本阶段(一般到a1就投入量产)，成功运行了数百个工作负载，实测fp32吞吐性能超过45tflops，memory fabric缓存带宽超过5tb/s，互连带宽超过2tb/s。

ponte vecchio将有多种产品形态，最基本的单芯片做成oam模块，集成到一个载体基板上，amd instinct也有这种。

四芯并联组成一个子系统，再搭配双路的下一代sapphire rapids至强处理器，就是一个超算节点，将用于“极光”超算。

- the end -

转载请注明出处：快科技

相关标签： #Intel #显卡 #超级计算机 #计算卡 #Ponte Vecchio

上一篇： 2021年八所实力最强的211大学排名（最新）：公认最强的211是哪些？

下一篇： javascript 匿名函数与闭包