蓝宝石RX 460 1024sp超白金深度评测及拆解图
2016年对显卡界来说可谓是轰轰烈烈的一年,经过了5年漫长时光,gpu的制程终于迈入1x nm时代,随着制造工艺从28nm升级为14/16nm,显卡的能耗比得到了极大的提升。借着这股东风,amd和nvidia发布了多款全新架构产品,细数整个16年,nvidia共发布新架构产品9款,amd共发布新架构产品7款(radeon pro ssg采用的是fiji核心,故不算在内),可谓是新品迭出。
整个显卡界的关注度也是空前高涨,从4月中旬一直热闹到了12月中旬,然后逐渐沉寂下来。就在几家我正享受这片刻的宁静时,amd又在春节之前发布了一款polaris新品,发布的正是之前传出的“rx 460升级版”——radeon rx 460 1024sp。说起这个rx 460 1024sp,其实在12月初就有玩家通过给rx 460开核的方式得到了这款卡,当时正是rx 470d可以开核的消息大面积扩散的时候,overclocking.guide的大神der8auer通过一个固件解锁了rx 460 polaris 11核心隐藏的2组cu,结果让显卡性能激增,这让许多玩家振奋不已。
开核前后跑分对比
如果你对专业卡有所了解的话,相信你一定知道amd发布的全新polaris架构专业卡,其中radeon pro wx 4100这款显卡采用的便是polaris 11核心,核心的流处理器数量是1024个。这也就是说拥有1024个sp的polaris 11核心才是完整小核心,rx 460的sp数量为896个,显然是被“阉了一刀”,amd推出1024sp的polaris 11核心gpu也是早晚的事。终于,amd在春节前放出了rx 460 1024sp这款意料之内的产品,算是给众多中低端玩家的新春礼物吧。
拥有1024个sp的radeon pro wx 4100
rx 460 1024sp推出的意义很明显,就是与nvidia的gtx 1050正面交锋。由于新制程的rx 460仅仅能与28nm的gtx 950战个平手,更不用说与14nm的gtx 1050一战了,这直接导致了rx 460在玩家群中的口碑并不是很好,因此amd在rx 470d的火热劲过后紧接着便放出了1024个sp的rx 460,誓与gtx 1050一较高下。现在rx 460与gtx 1050间的性能差距差不多就是10-15%,而多了256个流处理器的rx 460理论性能提升差不多就是这个数值,可见两者间的大战还是比较有看点的。
蓝宝石 rx 460 1024sp 超白金 oc参数
与rx 460一样,amd没有为rx 460 1024sp推出公版产品,我们zol收到的是蓝宝石的rx 460 1024sp超白金 oc,算是rx 460 1024sp中比较有代表性的一款。我们同时引入rx 460及gtx 1050的数据进行横向对比,给读者一个更直观的感受。那么这款amd的这款升级版rx 460竟会有怎样的实力?吉吉我将带您一同揭晓答案!
完整polaris 11核心
radeon rx 460 1024sp采用14nm finfet “baffin”核心,核心面积为123平方毫米,共包含30亿个晶体管。基于gcn 4.0架构的该核心共有1024个流处理器,运算单元数量为16个,tmus总数量为64个,rops数量为16个,两个带宽为64bit的双通道显存控制器组成了总量为128bit的显存控制单元,大小为4gb。
注:表中售价均为官方首发限价
我们可以看到,radeon rx 460 1024sp的核心频率高达1250mhz,比rx 460高50mhz,这个频率可以说是相当之高的。rx 460 1024sp显存带宽为112 gb/s,完整支持directx 12 api以及异步运算,在dx12中有着更好的表现。rx 460 1024sp的默认pixel fillrate能力达到了20 gpiexls/s,默认texture fillrate能力为80 gtexels/s。
rx 460 1024sp架构图
gcn 4.0架构baffin芯片由以下主要的部分组成:
1、基于三星的14nm finfet工艺,照比之前的28nm工艺,为每个cu单元带来15%的性能提升,以及高达2.8倍的能耗比提升。
2、与“fiji”相同的宏观并行结构,16组cu单元被分为2个shader engines,每个shader engines包含8组cus。每个cu的shader效率照比前代提升了15%,同时几何引擎也有所改进。
3、与shader engines一一对应的2组geometry unit(几何处理单元)以及2组rasterizer(光栅化单元)。
4、ace异步计算单元的总量为4组,同时,还有2组全新的,为异步运算设计的hws加入到架构中。hws用来更好地对硬件资源进行调度,提高异步运算效率。
5、二级缓存是之前的2倍,在降低显存带宽需求的同时改善电源效率,在显存运行上更节能。
rx 460 1024sp gpu-z截图
baffin架构的核心设计,即cu单元与fiji甚至hawaii相差甚微,绝大部分uncore部分的结构也完全沿用了fiji的设计,两者甚至连宏观并行结构和缓冲体系都一模一样。baffin与fiji之间除了cu总量和显存控制器之外,可以说并没有本质性的差异。最大的改进点在于hws单元的引入,让新的gcn 4.0架构在异步运算方面可以取得更好的表现。
gcn 4.0架构新特性解析
全新gcn 4.0架构的几何引擎性能得到了一定程度的提升,其内置的primitive discard accelerator将在初始建模之前,会筛选出根据3d图像的距离逻辑,省略掉较远处物体建模的曲面细分指令。由于距离远,对远处物体的建模是无用的,虽然视觉上看不到,但还是会一样消耗性能,因此amd选择放弃这一部分,不进行曲面细分,从而提升几何引擎的效率。而新建索引缓存则可为更小的几何实例服务,以便减少数据移动,释放内部带宽资源,并提高原始吞吐量。
改进的几何引擎
在经过amd的优化后,通过减少流水线停顿、增加指令缓冲区容量、提高单线程、调整l2缓存等多项措施,gcn 4.0架构中每组cu的性能提升了15%。
cu单元性能提升
gcn 4.0的显存控制器也得到了更新,显存频率高达8gbps,同时带宽也达到了256gb/s。色彩压缩技术的加入,让很多重复的材质和信息可以被压缩存储,提高存储空间利用率,增加数据传输速度。因为图像是由不同颜色构成的,颜色相似度越高的像素,它就能以更高的比率压缩,最多可以达到1:8,这点同nvidia的pascal架构相同。
显存和色彩压缩技术
在gcn 4.0架构中出现一个全新的hws(硬件寄存器)单元,它是为异步计算和vr设立的特殊模块,意在针对vr虚拟现实的音频、视频与实时任务进行优化,提高硬件资源的利用率,并进一步提高gcn架构异步计算能力。
hws单元
amd在显示技术方面做了改进,gcn 4.0架构显卡开始支持dp 1.3及hdmi 2.0,并预先支持dp 1.4接口,可以输出10bit画面。此外,amd还实现了单根dp 1.3线缆进行5k@60hz分辨率的输出,这在现在来看还是非常先进的。
支持dp1.4-hdr
dp1.3单线输出5k@60hz
视频解码编码方面,gcn 4.0架构也做了改进,h.264编码支持4k 30hz编码,hevc/h.265则可以支持到4k 60hz编码。现在视频编码解码不仅关系到玩家看高清视频内容,很多游戏直播、录播软件也流行开了,支持高效率的编码有助于减少cpu占用率。
全新架构使能耗比得到显著提升
半导体工艺对芯片性能、功耗的影响是根本性的,根据官方资料,amd选择的三星14nm finfet工艺使得显卡运行电压降低了150mv,功耗降低了30%,所以gcn 4.0架构使用的14nm工艺相比28工艺能提升70%的每瓦性能比,但在amd优化之后,新显卡的能效比最终达到了前代水平的2.8倍。