NVIDIA Tesla K80：怪物般的双芯计算卡

程序员文章站 2022-03-16 16:21:46

新一届高性能计算大会召开，，各大厂商也都趁机纷纷推出了各自的重磅新品。先来看nvidia的怪物级计算卡：tesla k80。 tesla k系列都是基于&ldqu...

新一届高性能计算大会召开，，各大厂商也都趁机纷纷推出了各自的重磅新品。

先来看nvidia的怪物级计算卡：tesla k80。

tesla k系列都是基于“开普勒”(kepler)架构的高性能计算产品，其中采用gk110大核心的已有三款，而今天这款tesla k80，从各个方面都进行了前所未有的增强。

首先，她的核心是新的gk210。

gk110核心第一次用于高性能计算是tesla k20，只开启了2496个流处理器，经过一次修订后升级为gk110b，先后推出了2688个流处理器的增强版tesla k20x、2880个流处理器的完整版tesla k40，后者还提供了三个档次的核心频率。

gk210则是nvidia第一次对某个核心进行中途修改，最大的变化就是寄存器文件、一级缓存容量都翻了一番，分别来到512kb、128kb，不过整体架构没变，还是2880个流处理器、384-bit位宽，制造工艺也依然是台积电28nm，但晶体管数量理论上应该比71亿个更多了。

寄存器文件、一级缓存增大后，可以明显改进流处理器阵列内的数据吞吐能力，工作更高效，尤其适合高性能计算。这显然是一次针对性的重新设计。

可怕的是，tesla k80一次就用了俩gk210核心，而上次的双芯计算卡还是tesla k10，当时用的是俩小核心gk104。

不过可以理解的是，如此庞大的两个核心很难全速开动，每一个都只开启了15组流处理器阵列中的13组，也就是总共2496×2＝4992个流处理器，相当于tesla k20翻了一番。

核心频率也定得很低，只有562mhz，但是第一次支持gpu boost动态加速了，最高可达875mhz。显存是两组384-bit 12gb gddr5，总计达24gb，但频率也不是很高，只有5ghz。

这一切都是出于功耗的妥协。tesla k20x/k20已经达到235w，而双芯的tesla k80在一番折腾后，仍控制在了300w，并且保持了双插槽的身材，但需要使用被动散热，由系统风扇带走热量，主动散热版暂时没有。

性能方面自然可期，官方宣称fp32单精度、fp64双精度浮点性能最高分别可达8.74tflops(万亿次浮点)、2.91tflops(比例还是1:3)，比此前提高了74％，但这只是最大加速理论性能，实际上会低一些。

1u标准机架内可以放入最多四块tesla k80，双精度性能可超10tflops。

根据情况不同，tesla k80的效率提升幅度最好59％，最差2％。

tesla k80的售价高达5000美元，但其实比单芯tesla k40 5500美元的首发价格便宜了很多，不过后者现在已经降至3900美元。

目前，全球性能第十的cray cs-storm，以及戴尔、惠普、广达的高性能计算系统都已经配备了tesla k80。