不怕美国禁售!新天河自主超算芯片公布
再一次称霸全球超算性能榜单(性能最大33.83pflops,千万亿次浮点计算),虽然仍处在建设中,但它已经史无前例的连续5次成为top500的冠军。
不过,高兴之余我们也有一丝隐忧,因为美国商务部在今年4月份发布公告,。
因为xeon e5处理器比较容易获取,所以限售的重点直指xeon phi计算加速卡。至于超算为什么必须用加速卡,重点考虑的就是能耗和建设成本。
限售令公布后,天河2号系统主任设计师、国防科大教授卢宇彤,“按照原定计划,天河二号拟在今年将计算能力从55pflops升级到100pflops。尽管此次美方对天河二号升级所需intel xeon处理器的限售,对原定升级计划有一定影响,但我们早有准备,绝不会影响天河二号从55pflops升级到100pflops的既定目标 。
至于中国的信心来自那里,本次超算峰会上,卢宇彤的主题演讲也亲自做了回应,我们整理了zdnet亲临现场后发回的报道,一起来看看。
这一次,全新的天河2a首次公开对外公布了信息,和与历代天河系统的对比,其运算峰值将达到100p,更为精彩的是,“中国计算加速卡china accelerator”首次亮相,型号“matrix2000”。
虽然处理器方面仍是至强e5-2692 v2,但这款自主的加速卡可谓是对“禁运令”的最大回击。而且,在性能提升到100p的同时,天河2a的功耗几乎没有增加!
事实上,通用处理器在未来的hpc系统里的权重会越来越低,主要工作将逐渐向控制层面转移,计算任务则主要由加速器完成。因为nvidia gpgpu tesla同样在美国限售范围内,国防科大给出的中国自主研发方案就是通用计算数字信号处理器(gpdsp)。必须承认的是,并不算有多“高大上”。
matrix2000的主要设计规格预计为16核设计,可达到2.4t的浮点性能,虽然还比不上knight landing的3t,但对于白手起家的中国来说,已经相当不易,而且功耗比现有的xeon phi少了100w。
matrix2000的内部设计,采用了标量与向量单元+超长指令字(vliw)的架构
针对全新的matrix2000所准备的软件堆栈,包括gpdps驱动程序、操作系统、编译器、数学库等
据国防科大的相关研发人员介绍,有关dsp的浮点计算应用,一直也是国防科大的研发重点,它与超算研究可谓是并行发展。也正是因为有了这样的积累,国防科大才能比较从容的面对美国的限售。但该研发人员也表示,gpdsp的一个推广难点也就在于,在hpc应用领域几乎是从零起步,就像当初nvidia刚推出gpgpu时一样,直到cuda的发布才迅速改善了gpgpu的应用生态环境。
在互联层,采用了自主研发的th-express 2+架构,实现了自适应(adaptive)互联架构
所谓的自适应互联架构,就从多个层面入手,通过自应用平台层至底层形成的智能互动,保证网络效率持续而稳定,比如自动规避质量不佳或拥挤的链路,进一步杜绝重复的通信,并在节点与网络故障时对路由重新配置等等。
天河二号a仍然是以自主研发的h2fs文件系统为核心,实现了1tb/s的突发传输,100gb/s的持续传输
不过卢宇彤表示,目前matrix2000已经通过了验收。这意味着至少在国防科大的层面,正式投入使用已经没有问题,但具体时间还不能确定,所以只给出了2016年这一较为笼统的时间点。
相关研发人员也透露,除了应用平台进一步配套完善之外,gpdsp芯片本身的生产与物理设备的调优还有很多工作要做。而且受限于当前中国半导体生产工艺水平,现在还是采用40nm工艺的gpdsp,也在很大程度上制约了matrix2000的能力。
总的来说,中国研制超大规模hpc系统的目的肯定不仅仅是为了跑个linpack争个名次,否则也不会引起美国的重视并引发限售。
天河二号a的设计在某种角度上说,真正打开了中国自主hpc发展的向上之路,因为加速器很重要,也因为加速器被国外限售,所以天河二号a在这种环境下还能很快达到100p的性能,也许连美国相关人士也没有想到,但这绝对是件好事!
下一篇: 曙光出品:中国终于有了自己的液冷服务器!