威盛x86 AI处理器架构、性能公布:媲美Intel 32核心
除了intel、amd,宝岛*的威盛也会造x86处理器的,不知道还有多少人知道?最近,威盛旗下已有24年历史的处理器研发部门centaur开发出了世界上第一个集成ai协处理器的x86处理器,并有了可工作的原型,今年9月份开始芯片测试。
新处理器采用台积电16nm工艺制造,内核面积不超过195平方毫米,内部采用环形总线设计,串联集成八个x86 cpu核心、16mb共享三级缓存、四通道ddr4-3200内存控制器、pcie 3.0控制器(44条)、南桥和io功能,是一颗完整的soc。
最大亮点是ai协处理器“ncore”,占用面积约34.4平方毫米(17.6%),软件映射为pci设备,支持dnn深度神经网络创建与训练的加速,号称可提供多达20tb/s的内存带宽、每秒20万亿次ai操作的性能。
主频可以工作在2.5ghz,而且竟然支持avx-512指令集,这可是amd zen 2架构都没有的。
近日,centaur公布了这颗处理器的诸多架构细节,但有趣的是并非自行公布,而是来自美国加州处理器技术权威机构、 著名芯片杂志《microprocessor report》发行商linley group,后者仔细研究了centaur的处理器架构设计文档,并采访了相关设计师,给出了这份报告。
《microprocessor report》杂志主编linley gwennap对这颗全新设计的x86处理器不吝溢美之词:“centaur高调重返x86市场,带来了革新的处理器设计,整个八个高性能cpu核心、一个定制深度学习加速器(dla)。这是业界第一个集成dla的服务器处理器设计。新的加速器ncore的神经网络性能甚至比最强大的至强还要好,而且不需要昂贵的外部gpu计算卡辅助。”
linley group透露,centaur的全新x86微架构叫做“cns”,设计目标是ipc要高于传统pc处理器,每时钟周期可解码4条x86指令,并行执行10个微操,首颗处理器暂命名“cha”,其中ai协处理器int8整数的峰值性能高达20tops(20万亿次操作每秒)。
linley group基于权威的mlperf性能测试来衡量x86处理器的ai性能,结果发现centaur cha处理器的ai推理性能,相当于23个世界级的intel x86核心,而且后者必须是支持512位的vnni矢量神经网络指令才行。——事实上,intel现在还没有真正的32核心产品。
centaur ai协处理器的架构设计类似vnni指令的simd(单指令多数据)理念,但是在16mb专用内存、20tb/s带宽的支持下,每个时钟周期可以处理32768个数据位,而且将推理处理交给专门的ai协处理器后,x86核心就可以放心执行其他通用任务。
centaur还为开发者提供了新的算法,可充分利用centaru ai协处理器无与伦比的超低推理延迟,并与x86 cpu核心密切配合。
在纽约州举办的isc east大会上,centaur还首次公开展示了cha处理器,而且除了视频分析、实时物体检测和分类等传统ai应用之外,还唯一秀了一把语义分割(像素级图像分类)、人体姿态估计(简笔画)等前沿应用,让人大开眼界。
目前,centaur正在改进优化新平台的硬件性能、软件效率,而新处理器预计明年下半年正式投产。
linley group的详细报告可以点击这里下载
centaur处理器测试中