发酵了一年多的织女星,终于在CES 2017上正式公开了(PPT),AMD把它命名为“第五代GCN”,并称有一些“之前从未应用过的元素”,使织女星的工作效率更高。
首先呢,AMD分析了一下市场情况。从2000年到2016年,游戏占用硬盘的体积越来越多(具体纵坐标又没给出是多少,反正翻了很多倍就是啦),并且上升势头还会越来越快。
另外还针对影视特效的数据量,也拿了这些年的代表性影视巨作举了例子,已经达到了PB级别,同样是越来越快的增长率。
计算量就更不用说了,早已突破EB级别,并且还在上天。。。
而GPU的算力和显存容量也在日益增长。。。
AMD还展示了当今两个代表性游戏巫师3和辐射4,可以看到这两个游戏在Ultra 4K设定下占用的显存和实际访问的显存差异很大,说明一大部分的显存都是占着茅坑不拉屎,而VEGA的设计,正是为了解决这样的问题。
所以,AMD就是基于这些种种无止境的需求,而研发了VEGA——嗯,这个开场够高大上了吧。
首先介绍的是内存管理技术。
这并不是织女星GPU内部的架构图,而是AMD想要表示织女星GPU本身是如何和外界的设备相连的。从图上看,织女星内部的内存控制器管得真宽,建立了一个“高速缓存控制器(HBCC)”,可直连NVRAM(3DXP NAND?)、网络存储和DRAM内存(怎么那么像APU的统一寻址?),另外AMD称,在织女星架构上显存管理做了一些调整,一些原本需要驱动调度的如显存地址分配、读写操作、调度与释放等,现在可以通过硬件处理直接实现了,HBCC还有自己的512TB虚拟地址空间。。。然而AMD并没有说这些东西的实际应用,也许要在显卡PCB上做相应的硬件,我脑补一下,这套方案如果最终实现,那么又是一个SOC,CPU可以下岗了,然而在台式机上,可能最终作用就是可以提升高分辨率尤其是VR应用下的显存调度效率吧。
然后就是HBM2的优势,带宽相比HBM一代翻倍,堆叠容量是HBM一代的8倍,针脚占用比GDDR5少50%以上,这些都没什么稀奇的了。
所以曝光出来的VEGA芯片实物,只有2个HBM2的die,就已经实现4096bit/16GB的显存了。
下面到GPU部分。VEGA的CU现在该叫做NCU(Next-generation CU),NCU加入了一项叫Rapid Packed Math(暂且翻译成快速堆叠计算)的技术,顾名思义就是允许2个FP16的计算放入一个32bit寄存器,这样就能在同一个时钟周期处理两个FP16计算,等效频率翻倍。还有说法是每个CU可根据计算负载的实际情况单独分配SIMD单元,这样大大提升效率。所以织女星这下SP效率该有很大提升了,然而微软爸爸的驱动能给力么?
VEGA还加入了FP8浮点计算(GP102也有),开发者可以利用FP8浮点计算简化代码,织女星每个时钟周期可以做512次FP8计算。
AMD现在还把像素引擎修改为直接访问L2缓存,在L2缓存上直接进行光栅化,取代以往像素引擎访问内存控制器的做法,可以提升延迟渲染的效能,并实现存储一致性,渲染后端现在全部都直接连在L2缓存上。
基本上就是以上这些,PPT永远都是这么美好,而TechReport称他们拿到8GB的Vega显卡做了《毁灭战士4》的完整测试,表现介于GTX 1070和GTX 1080之间。。。。我们姑且认为VEGA没驱动,等着战未来吧。
|