PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

从芯片设计和逻辑组合来看你的GPU,浅谈Kepler VS Tahiti

  [复制链接]
跳转到指定楼层
1#
点击数:46343|回复数:142
本帖最后由 hyenax1950xtx 于 2012-8-8 10:38 编辑

在硬派看到一篇文章:暂抛游戏 30款显卡GPU加速测试大扫荡

蛮有意思,同时也在论坛内看到有网友提问想了解为什么GCN看上去很美的架构转换,结果Tahiti被GK104给逼成现在这个样子

遂发此文和各高手交流学习GPU的架构,尤其是不负责任的YY GK104带来的一些前景和预期

我将按照:前言、AMD、Nvidia、分析和展望五个部分来叙述

一、前言

个人对GK104的理解就是GF114的规模放大,同时改进一些功能,然后快速出击(虽然还是没有Tahiti快)投放市场,和其竞争对手的一对产品非常的相似

为了更清楚的认识GK104和Tahiti,我们要从他们的先辈谈起,那些大家聊烂了的ROPs、SP、bit、频率等等我就不谈了,聊一些不经常聊的东西



我先卖个关子不放GF114和GK104的架构图,上面是RV770和Cypress架构核芯对比图,Cypress就是RV770的规格翻倍版,只是简单的改进了一下引擎,就是我前面提到的某一对产品,事实上GF114和GK104的情况也是一样的。从大家对GF114/GF110的理解上,然而GF114/GF110是两款完全不同方向研发的芯片,GF114是一款游戏核芯,而GF110是一款主攻通用计算同时兼顾游戏的核芯。大家普遍会认为GK104只是Kepler时代的一款中高端芯片,但我要说的是,GK104其实就是本次首发旗舰,大家留意一下就会发现GTX560TI和HD5870的性能很相近,如果当时最先流片的是GF114并且没有碰到EDA电路的设计问题,那么Fermi首发的GTX480就会是GF114去对阵HD5870,情况就会类似现在GTX680 VS HD7970。关于GF114/GF110的详细分析,我会在后面说明。

其实老黄的双线设计,并不只是从GF104和GF110开始的,G92和GT200就是很明显的一对,G71和G80其实也是一对只是时间跨度稍微长了一点点,按照老黄双架构的市场更早去追述:
NV 5(Riva TNT2)和NV 10(Geforce 256,现在GTX680的祖宗)是在一个时期市场上的双架构产品;
NV 15(Geforce 2也就是后来的Geforce 4 MX系列)作为NV 10的改进型和NV 20(Geforce 3 TI)的改进型NV 25(Geforce 4 TI)也是在一个时期市场上的双架构产品;
NV 30(Geforce FX)、NV 35(Geforce FX)、NV 40(Geforce 6)和G70(Geforce 7)则是比较少见的但架构产品线,这个可能和NV30的失利有关。
双线双架构的分布让老黄可以在兼顾游戏的方面,同时鞭及更加专业化的市场,ATI/AMD则一直都是单线单架构,这也是FirePro竞争不过Quadro的重要原因之一,如果大家感兴趣的话可以去查阅相关的资料。



然后我们再来看看历代GPU的核芯大小,我们可以看到自2900XT大悲剧以来ATI/AMD一直都是用较小的核芯和NV较大的核芯竞争,其中最夸张的就是RV770和GT200(GT200b)的时代,250mm² VS 576mm²(470mm²),不过虽然少花了晶体管,却一直无法打败对手的顶级芯片,而GK104一次出击就搞定了比自己大一圈的Tahiti确实让AMD很没面子(当然这也和Tahiti的频率定的过低有关,7970 GE用频率说明了问题)。



这张图可以说明,RV770和GT200(GT200b)的时代,在基本架构SIMD(单指令多数据流)和MIMD(多指令流多数据流)之间的作业流水线区别。

如果还是不太好理解的,我就用人民群众喜闻乐见的国粹来说明一下



这个小平胡可以看成是AMD的SIMD架构,教科书般的3+3+3+3+2组合,也就是VLIW 5D的4D+1D组合,但是必须是组合才能起左右,单独一个都无法起到作用,优点是EDA设计比较简单,结构也很简单,要求小,打得粗,流处理器单元数量扩展起来相当的方便,缺点就是效率较低,极度依赖指令组合,需要强大的调度体系与之配合。



这个十三幺就是NV的MIMD架构,每一个都能独挡一面,组合起来威力巨大,但是不好摸,每一个的压力都很大,很消耗资源,结构也相对复杂。

从NV 10 Geforce 256开始NV就提出了GPU的概念,想要推广GPU的并行计算性能,因此在核心架构的设计上更多的考虑GPU的计算能力,到了统一渲染时代,就开始设计一些类似于CPU的多级缓存架构以及MIMD这种标量流处理器。正因如此早期的G80、G92、GT200b、GF110等在复杂通用计算方面远超AMD的产品(单纯拼DX11的CS5.0性能,NV的芯片并不占便宜,反而偏弱,这也和SIMD过于强大的浮点运算能力相关),不过强大的通用计算能力并未给图形性能带来多少收益,反而因冗余电路过多造成芯片面积、功耗巨大,理论浮点计算性能较低,使我们看到了GTX480那样的悲剧。扩展性也不行,不能像AMD那样可以轻松的320SP(RV670)扩800SP(RV770),800SP(RV770)扩1600SP(Cypress)。这是由于MIMD架构的本身特性导致的,与SIMD不同,MIMD会消耗大量的晶体管在指令发射端和控制逻辑单元上面,而SIMD的一个矢量运算单元只需要一个单位的指令发射端和控制逻辑单元,比如GT200b和RV770,前者要240组,而后者只要160组。NV为了弥补流处理器数目少于对手的劣势,提高自己流处理器的单位性能,就加入了Core和Shader的异步频率,其实早在管线时代NV的Vertex和Pixel频率就异步了,就是我图表中的Shader Clock(着色器频率)可2至2.5倍于GPU Clock(核心频率),但是光栅,纹理单元,类缓存结构,显存控制器等等的工作频率却依然是GPU Clock。

依托于SIMD的优秀基因,AMD可以用高效率小平胡来洗钱,输出长期霸占能耗比的优势,而MIMD的十三幺就只能博大,所以卡皇一直是NV占据。
DX10时代,也是N卡做工相当好的一代,不管是HD4890对GTX260+、HD4870对GTX260、HD4850(HD4860)对9800GTX(GTS250)、HD4830/HD4770/HD4750对9800GT/9600GTX等等都显得游刃有余。尽管中低端全面开花,但当时功耗更高、更浪费晶体管、超大核芯的巨无霸GTX280/GTX285依然是当时的卡皇、GTX480/GTX580依然拥有卡皇的同时拥有最高的功耗、晶体管和核芯面积,而中低端依然是AMD在能耗比,性价比上占尽优势。

GK104横空出世以后,猛然发现MIMD变成SIMT(单指令多线程),其实是GK104帮Cayman做到了它想做到的事情,SIMT并不需要像SIMD一样的去封装打包,也允许每个线程有不同的分支,这样就极大的降低了指令发射端和控制逻辑控制单元对晶体管的消耗。

大家经常容易看到的GPU结构中的SP(流处理器),这是统一渲染架构时代的基本单元,但是更重要的是计算单元和渲染引擎,下面提到的几个关键字比较重要,大家看的时候要重点留意一下:ACE、Raster、Polymorph、TMUs、指令分发器、Warp、Wavefront等。

二、AMD



AMD自己的PPT说明图形运算经历了TL光照、顶点/像素渲染、VLIW 5再到VLIW 4指令的变化,其实就是早期几何变换以及光照渲染,管线时代,统一渲染架构时代,而VLIW 5D超长指令架构,使用4D+1D的变通方式实现了统一渲染的要求,VLIW 5从R600开始一直用到RV670、RV770、Cypress和Barts,历经五朝而不衰。现在市场上的常青树HD6600 Series、HD6700 Series和HD6800 Series就是这种架构,HD6700 Series(Juniper)更是从GTS250开始、GTS450、GTX550TI打到现在的GT640仍未有退意。



Cypress其实就是RV770的翻倍版,增加了一个GE引擎用作TS计算,但是因为其VLIW 5D的结构使得EDA设计变得简单,简单规模暴增以后就能迅速投放市场,反观采用MIMD结构的Fermi,不仅设计复杂花了时间还遇到EDA电路设计的麻烦,导致GTX480和GTX460全部是阉货,而GK106和GK108为什么可以不阉就完整出来,则是芯片规模小,不会遇到瓶颈,这也是GK104能快速上市的原因之一。Cypress的旗舰产品HD5870上市的时候,曾经被质疑是一片带有DX11功能的DX10显卡,但这恰恰也是Cypress的优势,得益于DX11优秀的CS 5.0向下兼容能力,让开发者可以用DX9去开发游戏然后扩展DX11的特性,这也是那段时期很多游戏都同时支持DX9、DX11,使得开发商对DX11的热情很空前,同时让HD5870在这个过渡时期用优异的DX9/DX10性能让宣称强大DX11性能的Fermi和干老本行的G92、GT200系列吃了不少苦头。



Cayman相比上代的Cypress变化不大,从4D+1D的VLIW 5指令变为3D+1D的VLIW 4指令,增强了流处理器单元的通用性,不过整体范畴还是未能脱离VLIW超长指令体系,只是强化了曲面细分单元,加入了双异步计算引擎而已。



Tahiti的GCN架构中基本的组成单元为“Compute Unit”(简称CU),完整的GCN核心有32个CU单元,每个CU单元又下辖64个ALU单元和4个TF纹理单元,总计有2048个ALU计算单元,128个纹理单元,相比之下Cayman的流处理器单元只有1536个,纹理单元也只有96个。前端部分延续了Cayman所用的“Dual Graphic Engines”双图形引擎结构,有两个ACE(Asynchronous Compute Engines异步计算引擎)和两个Geometry Engines(几何引擎,第9代曲面细分单元)引擎。Tahiti还有8个后端渲染单元,每周期可以实现32个ROP光栅渲染和128个Z/stencil渲染,这一点与Cayman倒是没有分别,不过显存位宽加大了,后端处理性能还是有提升的。32个CU单元之外是6组GDDR5显存控制器,每组64bit,显存位宽为384bit,这也是AMD首次使用384bit显存位宽,再结合1375MHz的高速度,Tahiti的显存带宽达到了264GB/s,显存容量也再上一个台阶,达到了3GB。Tahiti的GCN架构中内含16个GCN阵列,每个GCN阵列里面包括4个SIMD单元,每个SIMD单元内部包括16个1D标量运算单元。Cayman的SIMD引擎是16x4=64个流处理器`,Tahiti的GCN阵列是4x16=64个流处理器,总数量虽然没有变化,但架构上还是有很大幅度的改良,Tahiti相对于Cayman在阵列上的变化来说就是把4D矢量运算单元改成了1D标量运算单元,完成了由高效率的小平胡到大收益的十三幺的改变。不过基本的计算单位却有着不小的变化。



上图就是GCN架构中一个CU的剖析图,是用来做计算工作的,CU是最基本的并行计算单位,它是用来取代VLIW架构体系中SIMD阵列的。每个CU里包含4个计算模块,AMD称之为“Vector Units”(向量单元,简称VU)。一个完整的VU由一个16-wide Vector SIMD(16位向量SIMD)和一个64KB Register File(64KB文件寄存器)组成。由于一个VU包含有16个ALU,所以在1个时钟周期内可以处理1个指令和最多16个数据元素。这也就是说,一个CU可以再1个时钟周期同时执行4个指令。AMD的一个Wavefront(波前)相当于64个像素或数据元素以及相应执行指令构成的组,通常1个Wavefront有4个完全独立的指令。现在在GCN架构上,由于一个CU包含四个VeU,并且他们分别具有1个时钟周期内处理1个指令的能力,所以现在一个CU便可以在1个时钟周期内执行1个Wavefront了。也就是说,如果是Tahiti XT核心的话,则可以在1个时钟周期内执行32个Wavefront。在一个CU里,除了VU外,还包含1个用于执行min、max、cmpxchg的SU(标量单元),并配有4KB Scalar Registers(标量寄存器);64KB Local Data Share(64KB共享本地数据);16KB L1 Cache(L1数据缓存);16个可执行32bit Load/Store操作的Texture Fetch Load/Store Units(纹理拾取加载/存取单元,1个时钟周期可执行16个32bit Load/Store操作);4个可执行32bit线性滤波的Texture Filter Units(纹理滤波单元,1个时钟周期可执行4个32bit线性滤波操作);1个执行分支指令和除错操作的Branch&Message Unit(分支&信息单元);1个Scheduler调度器。VU可以进行一系列整数和浮点操作,并且改善了FP64(双精度)的计算性能,这一点对于普通玩家来说可能暂时还用不到,不过在HPC这种对高精度计算要求较高的领域,还是非常有用的,这也为AMD未来进军HPC领域与NV的Tesla产品竞争打下了基础。

其实大体上来看Tahiti,就是GF110和Larrabee的结合体。

三、Nvidia篇



先来一张总体规格对比图,AMD的架构变化较大,但是性能的提升却是线性的,而Nvidia却不同,架构小幅改变,性能却是大步迈进。
第一项是五种核芯的基本参数对比,第二项是GK104/GF114/GF110的基本逻辑单元数目对比,第三项是GK104/GF114/GF110的SM或SMX的数据对比。



这就是GK104/GF114/GF110的核芯逻辑单元组成对比,从这里我们可以看到几个基本组成成员GPC(Graphics Processing Clusters,图形处理集群)、SM(Streaming Multiprocessors,流式多处理器)和MC(Memory Controller,显存控制器),GK104的核心共拥有4个GPC,每个GPC由一个专门的RE(Raster Engline,光栅引擎)和两个SMX组成,4个GPC就构成了8个SMX(每组SMX含192CUDA Core,总共1536个CUDA Core),MC为4个(每个MC提供64bit,总共为256bit)。相比较GF114/GF110的GPC和SM 1:4的设计,GK104降低了指令发射端和控制逻辑控制单元对晶体管的消耗。GK104核心的每个MC连接128KB的L2 Cache和8个ROPs(光栅单元),8个光栅单元中每个可处理一个单一的色样,一个完整的GK104核心由于具有4个MC,所以共拥有512KB L2 Cache和32个ROPs(即可处理32个色样)。表面上来看,GK104核心整体设计和GF110区别不大,不过,实际上这代GK104核心最大的改变在SMX内部包括取消掉GPU和Shader的Clock异步,才是Kepler架构的精髓所在。



这就是GK104/GF114/GF110的SM/SMX组成对比。SM/SMX是NVIDIA统一GPU架构的核心部分,其内部的CUDA Core可以执行pixel(像素)、vertex(顶点)、geometry shading(几何着色)、physics(物理)以及compute(运算)等工作;而纹理单元则可以执行texture filtering(纹理过滤)的加载/存储以及读取和保存数据到显存等工作;另外,SFU(Special Function Units,特殊功能单元)可处理transcendental(先验)和graphics interpolation(图形插值)指令;PolyMorph引擎可用于处理vertex fetch(顶点获取)、tessellation(曲面细分)、viewport transform(视点变换)、attribute setup(属性设置)、和stream output(流输出);Warp Scheduler和Dispatch Unit(指令分发器)负责指令调度。首先映入眼帘的是CUDA Core数目,相比GF114扩了4倍到192SP,SFU也扩了4倍,LD/ST存储单元、Warp、Dispatch、Tex都扩了一倍。



通过大幅放大CUDA Core规模,降低CUDA Core频率和GPU Clock同频,同时又提升CUDA Core和GPU Clock的频率来达到既有不错的运算效能,不再需要Shader异步了,二者将同频运行,有助于降低显卡功耗,又可减低所需耗电量的目的,GK104核心内的每个CUDA Core速度比原先慢了,但是凭借超大的规模获不仅获得了比原来更好的性能表现,同时也带来了产品功耗的降低。因此GK104在CUDA数量暴增的同时功耗更低,而每瓦性能比更是提高了一倍。



GK104的另一个变化就是PolyMorph Engines升级到2.0,虽然物理单元结构没有变化,但是Kepler的PolyMorph Engines 2.0的每周期性能是GTX 580的两倍多,再加上1006MHz的频率也要比GTX 580高出30%,因此整体性能反而会更强。

四、分析篇

我们先来看看Kepler VS GCN的几大优点:

体积小、性能强、功耗低,体积小和性能强前面的描述就已经说明了,这里再简单说明一下功耗低。



简单理解下,看图可知,Fermi的一条数据通路上的动态功耗至少是Kepler的两倍,因为它有两个寄存器,而且Fermi的Shader Clock是GPU Clock两倍,增大了动态功耗。而Kepler得益于工艺进步带来的延时缩小,省掉了一个寄存器,以及架构简化、PolyMorph Engines升级到2.0和逻辑电路精简,使得Kepler不需要像MIMD架构那样不得不付出高频高电压高功耗的代价保证异步高Shader Clock。

然后Kepler并非完美,存在下面两个问题:

1、和GCN不同,Kepler高度精简并强化的逻辑结构使得规模缩小得到性能并非线性降低。



这个是GK107和Cape Verde的结构对比,Cape Verde按HD7750来说,都是各自旗舰1/4的规模,但是GK107的性能却远不如Cape Verde出彩,除开GDDR3显存的弊端,及时是高频的GT640也弱HD7750公版有20%的差距。看单元结构就是GK104的单RE双PE弱于Cape Verde的单RE双ACE。

2、高分辨率和高AA下不给力,很多人会觉得是256bit 2GB GDDR5显存的原因造成的,但我觉得问题出在指令上。



从xbitlabs的测试可以看出,即使是Asus的GeForce GTX 680 DirectCU II TOP 2 GB频率达到1137/6008MHz,综合下来也会在高分辨率和高AA下输给公版频率的7970 GHz,不管是SLI还是单卡。



我们要先回顾到AMD篇中的Tahiti的CU计算单元的结构上来看,Tahiti的发射端是轮流发射指令的,一个周期发一个,逐步往下,发到第四个发完,又刚好回来如此循环,每周期取到一个wavefront和一个发射指令,不管粒度是否为64,这组SIMD都会执行4个周期,也就是说,如果粒度为32则会空闲2个周期,这样使得Tahiti在低负载的时候,造成极大的延时,导致效率下降。

再来看NV这边,要结合上面描述到的SM结构,GK104/GF114/GK110的指令发射端是并发的,每个周期都能发多条指令,Warp scheduler负责取哪一个Warp、Dispatch Unit则把Warp中的指令分配给执行单元(CUDA Core、TMUs、SFU和LD/ST),而GK104的发射端及其每组SMX所包含的Warp都是是GF104/114的翻倍,这样就使得GK104的SMX在低负载时的执行效率高于Tahiti CU。另外,要知道GK104为何能耗低,这里也有一个原因,不过要从GF104/114说起,如果GPC在各自的SM里面的两个warp中都没找到可以超标量发射的指令的话,就会空闲一些CUDA Core、TMUs、SFU和LD/ST来降低功耗,而GF100/110的SM就算系统低负载,其所包含的2个Warp也能发射最少两条指令,使得GF100/110的每组SM基本不会有空闲的时间(这也是GTX580耗电的原因之一)。

所以我们可以理解为低负载时Tahiti跑不满,高负载时GK104跑得太满,那么Tahiti依托自己的规格更高,自然要更强一些,一直以来AMD的产品在高负载表现一直好过NV的产品,这一点有着莫大的功劳。

其实,Kepler还有一个3D Mark 11跑分很高实际游戏达不到这么高的特性,这个又和GK104的TMUs有关,3DMark11的GPU测试部分存在一个偏向于通过大块材质贴图去实现DX11特效问题。随着贴图材质不断放大,对GPU纹理填充性能要求就越高,即对TMU压力会更大。由此可得出一个结论,就是影响3DMark11中GPU分数的重要因素不完全是DX11性能,反而是纹理贴图性能。而GK104的TMUs是GF114/GF110的一倍,所以自然跑分大放异彩,公版GTX680可以跑到X3200+,比公版GTX580的X2000要提高60%以上,但实际游戏性能平均下来也就是30%左右。不过Kepler的TMUs和Tahiti的TMUs不能横向比较,只能和各自的卡去纵向比较。

通过以上的规格比较,我们就会发现,其实Kepler VS Tahiti就是“增强版的GF114 VS 缩小版GF110”。

五、展望篇



如果你耐心看完了上面的图片,那么你就会对上面这两幅图的核芯感到失望,没错,这个就是GK110
GK110的SMX增加了4组对你游戏毫无用处的额外16-block双精度浮点单元,仔细再看15组SMX之间居然没有看到GPC组合,那么也就是Raster引擎没了、然后在看SMX里面,PolyMorph引擎和包含的Vertex Fetch、Tessellator、Viewport Transform、Attribute Setup、Stream Output也全不见了,那么对图形性能非常重要的RE和PE都没有,这玩意还有游戏能力吗?会民用吗?个人认为是否定的。

指望70亿晶体管的GK110像GF110对付Cayman一样的去对付GCN 2.0的HD8970的朋友可能要失望了,不过不要担心,GK104非常优秀,个人认为只要再扩充两组GPC和两组MC,对付HD8970也应该能泰然面对。

最后,我想说这代卡A/N都互有优劣,Tahiti并非不完美,如果你喜欢看超高的帧数和跑分,GK104很适合你;如果你对多屏或则大显存有要求Tahiti则更加适合你。

PS:码字辛苦,谢谢各位花时间观看。附上硬派测试的30款显卡计算性能截图。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

参与人数 18活跃度 +300 收起 理由
流星砸到头 + 5 很给力!超技术文
kobe327292007 + 20 很给力!
lue_85 + 5 好棒的技术贴
lchong649cn + 5 很给力!
sean227 + 5 很给力!
counterflow + 5 不错
liwenchao + 5 很给力!
Pluskton + 5 赞一个!
仙賢戀軒 + 5 很给力!
jasu30 + 50 很给力!
乞丐 + 5 赞一个!怎么有2句话在隔壁看到过.
donnyng + 5 撸一个!
flhssnake + 5 很给力! 忍不住平评分了
overthink + 60 赞一个!
tangti02 + 5 学习了~~~
kinno + 5 有料
wsy2220 + 5 好贴!
royalk + 100

查看全部评分

2#
xilin 发表于 2012-8-8 09:33 | 只看该作者
谢谢,很不错的文章
3#
Ramaxel 发表于 2012-8-8 09:38 | 只看该作者
太强大了,看不懂的鹿过,绑定
4#
大D来了 发表于 2012-8-8 10:03 | 只看该作者
总结:当前高端性能玩GTX670 680
中端还是玩性价比7750 7770的市场
5#
liangzai1839 发表于 2012-8-8 10:09 | 只看该作者
呼呼,终于看完了。对于后面的跑分图有些疑惑,为什么有时候中低端卡的成绩会比旗舰的好的呢?
6#
wys1130 发表于 2012-8-8 10:20 | 只看该作者
简单理解来说就是 GK104纯粹是为了跑分和游戏的。
Tahiti 则是兼顾甚至为了计算领域而做的。
7#
hyenax1950xtx  楼主| 发表于 2012-8-8 10:21 | 只看该作者
liangzai1839 发表于 2012-8-8 10:09
呼呼,终于看完了。对于后面的跑分图有些疑惑,为什么有时候中低端卡的成绩会比旗舰的好的呢?
...

主要是和软件的兼容性有关,比如解密测试,AMD这边只有VLIW 5D有成绩,而NV这边只有Fermi有成绩,GCN、VLIW 4D和Kepler均无成绩

还有就是架构的原因,前面我也提到过,VLIW系列的设计,非常适合DX 11简单的CS运算,最典型的就是挖矿。
8#
nighttob 发表于 2012-8-8 10:22 | 只看该作者
想不到直接写了这么大一篇,真是辛苦了……
GK100主攻计算是铁定的了,但是我还是倾向于相信会有个GK100的绘图卡,计算能力上去了完全可以暴力算出图形渲染。GK104的双精度实在不给力,不能应对绘图和双精度浮点并用的场合,其实也就是Quadro这样的专业图形卡了。

GK104肯定还有改进空间,不仅仅是堆规模。如果真如你所说没有GK100的图形卡的话,NV肯定要做一个双精度能上来的图形卡弥补空缺。然后就是看AMD会不会跟进了。
AMD和NV在这一代上都实践了流言终结者的名言——值得做的就值得做过头。
9#
nighttob 发表于 2012-8-8 10:26 | 只看该作者
hyenax1950xtx 发表于 2012-8-8 10:21
主要是和软件的兼容性有关,比如解密测试,AMD这边只有VLIW 5D有成绩,而NV这边只有Fermi有成绩,GCN、VL ...

买个6990回来,然后挂机挖矿赚钱……这主意不错……
10#
liming3431282 发表于 2012-8-8 10:26 | 只看该作者
技术贴 先顶后看
11#
f13l 发表于 2012-8-8 10:28 | 只看该作者
支持看到了平时看不到的东西
12#
ppspps 发表于 2012-8-8 10:29 | 只看该作者
看完受教  怪不得別人使用GK104系列芯片做3dmax或者maya的時候  會覺得比上一代(GTX580之類)還不如,更加卡   是不是就是因為太過于遊戲應用,放棄了雙精度浮點計算導致的
13#
coolerlan 发表于 2012-8-8 10:34 | 只看该作者
哈哈 一到主页就看到个大红贴,先顶再学习~
14#
shanshan709229 发表于 2012-8-8 11:01 | 只看该作者
这文章....只能说受教了  自身能力有待加强啊 懂得越多才越觉得自己无知
15#
dxs 发表于 2012-8-8 11:07 | 只看该作者
好文,占座慢慢看.
16#
仙賢戀軒 发表于 2012-8-8 11:25 | 只看该作者
哎哟我艹 真有你的

用麻将来说明。。。

17#
wsy2220 发表于 2012-8-8 11:30 | 只看该作者
GK104高AA下偏弱,原来如此
18#
zangao 发表于 2012-8-8 11:37 | 只看该作者
学习了
受益匪浅
19#
liulinws 发表于 2012-8-8 11:39 | 只看该作者
对A卡有了更新更全面的认识。
20#
qnboy 发表于 2012-8-8 11:52 | 只看该作者
纯中国血统。
老外翻译过去可能看不懂麻将。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部