PCEVA,PC绝对领域,探寻真正的电脑知识

标题: 从芯片设计和逻辑组合来看你的GPU，浅谈Kepler VS Tahiti [打印本页]

作者: hyenax1950xtx 时间: 2012-8-8 04:19
标题: 从芯片设计和逻辑组合来看你的GPU，浅谈Kepler VS Tahiti
本帖最后由 hyenax1950xtx 于 2012-8-8 10:38 编辑

在硬派看到一篇文章：暂抛游戏 30款显卡GPU加速测试大扫荡

蛮有意思，同时也在论坛内看到有网友提问想了解为什么GCN看上去很美的架构转换，结果Tahiti被GK104给逼成现在这个样子

遂发此文和各高手交流学习GPU的架构，尤其是不负责任的YY GK104带来的一些前景和预期

我将按照：前言、AMD、Nvidia、分析和展望五个部分来叙述

一、前言

个人对GK104的理解就是GF114的规模放大，同时改进一些功能，然后快速出击（虽然还是没有Tahiti快）投放市场，和其竞争对手的一对产品非常的相似

为了更清楚的认识GK104和Tahiti，我们要从他们的先辈谈起，那些大家聊烂了的ROPs、SP、bit、频率等等我就不谈了，聊一些不经常聊的东西

[attach]131938[/attach][attach]131939[/attach]

我先卖个关子不放GF114和GK104的架构图，上面是RV770和Cypress架构核芯对比图，Cypress就是RV770的规格翻倍版，只是简单的改进了一下引擎，就是我前面提到的某一对产品，事实上GF114和GK104的情况也是一样的。从大家对GF114/GF110的理解上，然而GF114/GF110是两款完全不同方向研发的芯片，GF114是一款游戏核芯，而GF110是一款主攻通用计算同时兼顾游戏的核芯。大家普遍会认为GK104只是Kepler时代的一款中高端芯片，但我要说的是，GK104其实就是本次首发旗舰，大家留意一下就会发现GTX560TI和HD5870的性能很相近，如果当时最先流片的是GF114并且没有碰到EDA电路的设计问题，那么Fermi首发的GTX480就会是GF114去对阵HD5870，情况就会类似现在GTX680 VS HD7970。关于GF114/GF110的详细分析，我会在后面说明。

其实老黄的双线设计，并不只是从GF104和GF110开始的，G92和GT200就是很明显的一对，G71和G80其实也是一对只是时间跨度稍微长了一点点，按照老黄双架构的市场更早去追述：
NV 5（Riva TNT2）和NV 10（Geforce 256，现在GTX680的祖宗）是在一个时期市场上的双架构产品；
NV 15（Geforce 2也就是后来的Geforce 4 MX系列）作为NV 10的改进型和NV 20（Geforce 3 TI）的改进型NV 25（Geforce 4 TI）也是在一个时期市场上的双架构产品；
NV 30（Geforce FX）、NV 35（Geforce FX）、NV 40（Geforce 6）和G70（Geforce 7）则是比较少见的但架构产品线，这个可能和NV30的失利有关。
双线双架构的分布让老黄可以在兼顾游戏的方面，同时鞭及更加专业化的市场，ATI/AMD则一直都是单线单架构，这也是FirePro竞争不过Quadro的重要原因之一，如果大家感兴趣的话可以去查阅相关的资料。

[attach]131940[/attach]

然后我们再来看看历代GPU的核芯大小，我们可以看到自2900XT大悲剧以来ATI/AMD一直都是用较小的核芯和NV较大的核芯竞争，其中最夸张的就是RV770和GT200（GT200b）的时代，250mm² VS 576mm²（470mm²），不过虽然少花了晶体管，却一直无法打败对手的顶级芯片，而GK104一次出击就搞定了比自己大一圈的Tahiti确实让AMD很没面子（当然这也和Tahiti的频率定的过低有关，7970 GE用频率说明了问题）。

[attach]131941[/attach]

这张图可以说明，RV770和GT200（GT200b）的时代，在基本架构SIMD（单指令多数据流）和MIMD（多指令流多数据流）之间的作业流水线区别。

如果还是不太好理解的，我就用人民群众喜闻乐见的国粹来说明一下

[attach]131942[/attach]

这个小平胡可以看成是AMD的SIMD架构，教科书般的3+3+3+3+2组合，也就是VLIW 5D的4D+1D组合，但是必须是组合才能起左右，单独一个都无法起到作用，优点是EDA设计比较简单，结构也很简单，要求小，打得粗，流处理器单元数量扩展起来相当的方便，缺点就是效率较低，极度依赖指令组合，需要强大的调度体系与之配合。

[attach]131944[/attach]

这个十三幺就是NV的MIMD架构，每一个都能独挡一面，组合起来威力巨大，但是不好摸，每一个的压力都很大，很消耗资源，结构也相对复杂。

从NV 10 Geforce 256开始NV就提出了GPU的概念，想要推广GPU的并行计算性能，因此在核心架构的设计上更多的考虑GPU的计算能力，到了统一渲染时代，就开始设计一些类似于CPU的多级缓存架构以及MIMD这种标量流处理器。正因如此早期的G80、G92、GT200b、GF110等在复杂通用计算方面远超AMD的产品（单纯拼DX11的CS5.0性能，NV的芯片并不占便宜，反而偏弱，这也和SIMD过于强大的浮点运算能力相关），不过强大的通用计算能力并未给图形性能带来多少收益，反而因冗余电路过多造成芯片面积、功耗巨大，理论浮点计算性能较低，使我们看到了GTX480那样的悲剧。扩展性也不行，不能像AMD那样可以轻松的320SP（RV670）扩800SP（RV770），800SP（RV770）扩1600SP（Cypress）。这是由于MIMD架构的本身特性导致的，与SIMD不同，MIMD会消耗大量的晶体管在指令发射端和控制逻辑单元上面，而SIMD的一个矢量运算单元只需要一个单位的指令发射端和控制逻辑单元，比如GT200b和RV770，前者要240组，而后者只要160组。NV为了弥补流处理器数目少于对手的劣势，提高自己流处理器的单位性能，就加入了Core和Shader的异步频率，其实早在管线时代NV的Vertex和Pixel频率就异步了，就是我图表中的Shader Clock（着色器频率）可2至2.5倍于GPU Clock（核心频率），但是光栅，纹理单元，类缓存结构，显存控制器等等的工作频率却依然是GPU Clock。

依托于SIMD的优秀基因，AMD可以用高效率小平胡来洗钱，输出长期霸占能耗比的优势，而MIMD的十三幺就只能博大，所以卡皇一直是NV占据。
DX10时代，也是N卡做工相当好的一代，不管是HD4890对GTX260+、HD4870对GTX260、HD4850（HD4860）对9800GTX（GTS250）、HD4830/HD4770/HD4750对9800GT/9600GTX等等都显得游刃有余。尽管中低端全面开花，但当时功耗更高、更浪费晶体管、超大核芯的巨无霸GTX280/GTX285依然是当时的卡皇、GTX480/GTX580依然拥有卡皇的同时拥有最高的功耗、晶体管和核芯面积，而中低端依然是AMD在能耗比，性价比上占尽优势。

GK104横空出世以后，猛然发现MIMD变成SIMT（单指令多线程），其实是GK104帮Cayman做到了它想做到的事情，SIMT并不需要像SIMD一样的去封装打包，也允许每个线程有不同的分支，这样就极大的降低了指令发射端和控制逻辑控制单元对晶体管的消耗。

大家经常容易看到的GPU结构中的SP（流处理器），这是统一渲染架构时代的基本单元，但是更重要的是计算单元和渲染引擎，下面提到的几个关键字比较重要，大家看的时候要重点留意一下：ACE、Raster、Polymorph、TMUs、指令分发器、Warp、Wavefront等。

二、AMD

[attach]131957[/attach]

AMD自己的PPT说明图形运算经历了TL光照、顶点/像素渲染、VLIW 5再到VLIW 4指令的变化，其实就是早期几何变换以及光照渲染，管线时代，统一渲染架构时代，而VLIW 5D超长指令架构，使用4D+1D的变通方式实现了统一渲染的要求，VLIW 5从R600开始一直用到RV670、RV770、Cypress和Barts，历经五朝而不衰。现在市场上的常青树HD6600 Series、HD6700 Series和HD6800 Series就是这种架构，HD6700 Series（Juniper）更是从GTS250开始、GTS450、GTX550TI打到现在的GT640仍未有退意。

[attach]131948[/attach][attach]131954[/attach]

Cypress其实就是RV770的翻倍版，增加了一个GE引擎用作TS计算，但是因为其VLIW 5D的结构使得EDA设计变得简单，简单规模暴增以后就能迅速投放市场，反观采用MIMD结构的Fermi，不仅设计复杂花了时间还遇到EDA电路设计的麻烦，导致GTX480和GTX460全部是阉货，而GK106和GK108为什么可以不阉就完整出来，则是芯片规模小，不会遇到瓶颈，这也是GK104能快速上市的原因之一。Cypress的旗舰产品HD5870上市的时候，曾经被质疑是一片带有DX11功能的DX10显卡，但这恰恰也是Cypress的优势，得益于DX11优秀的CS 5.0向下兼容能力，让开发者可以用DX9去开发游戏然后扩展DX11的特性，这也是那段时期很多游戏都同时支持DX9、DX11，使得开发商对DX11的热情很空前，同时让HD5870在这个过渡时期用优异的DX9/DX10性能让宣称强大DX11性能的Fermi和干老本行的G92、GT200系列吃了不少苦头。

[attach]131949[/attach][attach]131955[/attach]

Cayman相比上代的Cypress变化不大，从4D+1D的VLIW 5指令变为3D+1D的VLIW 4指令，增强了流处理器单元的通用性，不过整体范畴还是未能脱离VLIW超长指令体系，只是强化了曲面细分单元，加入了双异步计算引擎而已。

[attach]131950[/attach]

Tahiti的GCN架构中基本的组成单元为“Compute Unit”（简称CU），完整的GCN核心有32个CU单元，每个CU单元又下辖64个ALU单元和4个TF纹理单元，总计有2048个ALU计算单元，128个纹理单元，相比之下Cayman的流处理器单元只有1536个，纹理单元也只有96个。前端部分延续了Cayman所用的“Dual Graphic Engines”双图形引擎结构，有两个ACE（Asynchronous Compute Engines异步计算引擎）和两个Geometry Engines（几何引擎，第9代曲面细分单元）引擎。Tahiti还有8个后端渲染单元，每周期可以实现32个ROP光栅渲染和128个Z/stencil渲染，这一点与Cayman倒是没有分别，不过显存位宽加大了，后端处理性能还是有提升的。32个CU单元之外是6组GDDR5显存控制器，每组64bit，显存位宽为384bit，这也是AMD首次使用384bit显存位宽，再结合1375MHz的高速度，Tahiti的显存带宽达到了264GB/s，显存容量也再上一个台阶，达到了3GB。Tahiti的GCN架构中内含16个GCN阵列，每个GCN阵列里面包括4个SIMD单元，每个SIMD单元内部包括16个1D标量运算单元。Cayman的SIMD引擎是16x4=64个流处理器`，Tahiti的GCN阵列是4x16=64个流处理器，总数量虽然没有变化，但架构上还是有很大幅度的改良，Tahiti相对于Cayman在阵列上的变化来说就是把4D矢量运算单元改成了1D标量运算单元，完成了由高效率的小平胡到大收益的十三幺的改变。不过基本的计算单位却有着不小的变化。

[attach]131956[/attach][attach]131951[/attach][attach]131952[/attach][attach]131953[/attach]

上图就是GCN架构中一个CU的剖析图，是用来做计算工作的，CU是最基本的并行计算单位，它是用来取代VLIW架构体系中SIMD阵列的。每个CU里包含4个计算模块，AMD称之为“Vector Units”（向量单元，简称VU）。一个完整的VU由一个16-wide Vector SIMD（16位向量SIMD）和一个64KB Register File（64KB文件寄存器）组成。由于一个VU包含有16个ALU，所以在1个时钟周期内可以处理1个指令和最多16个数据元素。这也就是说，一个CU可以再1个时钟周期同时执行4个指令。AMD的一个Wavefront（波前）相当于64个像素或数据元素以及相应执行指令构成的组，通常1个Wavefront有4个完全独立的指令。现在在GCN架构上，由于一个CU包含四个VeU，并且他们分别具有1个时钟周期内处理1个指令的能力，所以现在一个CU便可以在1个时钟周期内执行1个Wavefront了。也就是说，如果是Tahiti XT核心的话，则可以在1个时钟周期内执行32个Wavefront。在一个CU里，除了VU外，还包含1个用于执行min、max、cmpxchg的SU（标量单元），并配有4KB Scalar Registers（标量寄存器）；64KB Local Data Share（64KB共享本地数据）；16KB L1 Cache（L1数据缓存）；16个可执行32bit Load/Store操作的Texture Fetch Load/Store Units（纹理拾取加载/存取单元，1个时钟周期可执行16个32bit Load/Store操作）；4个可执行32bit线性滤波的Texture Filter Units（纹理滤波单元，1个时钟周期可执行4个32bit线性滤波操作）；1个执行分支指令和除错操作的Branch&Message Unit（分支&信息单元）；1个Scheduler调度器。VU可以进行一系列整数和浮点操作，并且改善了FP64（双精度）的计算性能，这一点对于普通玩家来说可能暂时还用不到，不过在HPC这种对高精度计算要求较高的领域，还是非常有用的，这也为AMD未来进军HPC领域与NV的Tesla产品竞争打下了基础。

其实大体上来看Tahiti，就是GF110和Larrabee的结合体。

三、Nvidia篇

[attach]131991[/attach]

先来一张总体规格对比图，AMD的架构变化较大，但是性能的提升却是线性的，而Nvidia却不同，架构小幅改变，性能却是大步迈进。
第一项是五种核芯的基本参数对比，第二项是GK104/GF114/GF110的基本逻辑单元数目对比，第三项是GK104/GF114/GF110的SM或SMX的数据对比。

[attach]131977[/attach][attach]131978[/attach][attach]131979[/attach]

这就是GK104/GF114/GF110的核芯逻辑单元组成对比，从这里我们可以看到几个基本组成成员GPC（Graphics Processing Clusters，图形处理集群）、SM（Streaming Multiprocessors，流式多处理器）和MC（Memory Controller，显存控制器），GK104的核心共拥有4个GPC，每个GPC由一个专门的RE（Raster Engline，光栅引擎）和两个SMX组成，4个GPC就构成了8个SMX（每组SMX含192CUDA Core，总共1536个CUDA Core），MC为4个（每个MC提供64bit，总共为256bit）。相比较GF114/GF110的GPC和SM 1:4的设计，GK104降低了指令发射端和控制逻辑控制单元对晶体管的消耗。GK104核心的每个MC连接128KB的L2 Cache和8个ROPs（光栅单元），8个光栅单元中每个可处理一个单一的色样，一个完整的GK104核心由于具有4个MC，所以共拥有512KB L2 Cache和32个ROPs（即可处理32个色样）。表面上来看，GK104核心整体设计和GF110区别不大，不过，实际上这代GK104核心最大的改变在SMX内部包括取消掉GPU和Shader的Clock异步，才是Kepler架构的精髓所在。

[attach]131980[/attach][attach]131981[/attach][attach]131982[/attach]

这就是GK104/GF114/GF110的SM/SMX组成对比。SM/SMX是NVIDIA统一GPU架构的核心部分，其内部的CUDA Core可以执行pixel（像素）、vertex（顶点）、geometry shading（几何着色）、physics（物理）以及compute（运算）等工作；而纹理单元则可以执行texture filtering（纹理过滤）的加载/存储以及读取和保存数据到显存等工作；另外，SFU（Special Function Units，特殊功能单元）可处理transcendental（先验）和graphics interpolation（图形插值）指令；PolyMorph引擎可用于处理vertex fetch（顶点获取）、tessellation（曲面细分）、viewport transform（视点变换）、attribute setup（属性设置）、和stream output（流输出）；Warp Scheduler和Dispatch Unit（指令分发器）负责指令调度。首先映入眼帘的是CUDA Core数目，相比GF114扩了4倍到192SP，SFU也扩了4倍，LD/ST存储单元、Warp、Dispatch、Tex都扩了一倍。

[attach]131990[/attach]

通过大幅放大CUDA Core规模，降低CUDA Core频率和GPU Clock同频，同时又提升CUDA Core和GPU Clock的频率来达到既有不错的运算效能，不再需要Shader异步了，二者将同频运行，有助于降低显卡功耗，又可减低所需耗电量的目的，GK104核心内的每个CUDA Core速度比原先慢了，但是凭借超大的规模获不仅获得了比原来更好的性能表现，同时也带来了产品功耗的降低。因此GK104在CUDA数量暴增的同时功耗更低，而每瓦性能比更是提高了一倍。

[attach]131984[/attach][attach]131983[/attach]

GK104的另一个变化就是PolyMorph Engines升级到2.0，虽然物理单元结构没有变化，但是Kepler的PolyMorph Engines 2.0的每周期性能是GTX 580的两倍多，再加上1006MHz的频率也要比GTX 580高出30%，因此整体性能反而会更强。

四、分析篇

我们先来看看Kepler VS GCN的几大优点：

体积小、性能强、功耗低，体积小和性能强前面的描述就已经说明了，这里再简单说明一下功耗低。

[attach]131989[/attach]

简单理解下，看图可知，Fermi的一条数据通路上的动态功耗至少是Kepler的两倍，因为它有两个寄存器，而且Fermi的Shader Clock是GPU Clock两倍，增大了动态功耗。而Kepler得益于工艺进步带来的延时缩小，省掉了一个寄存器，以及架构简化、PolyMorph Engines升级到2.0和逻辑电路精简，使得Kepler不需要像MIMD架构那样不得不付出高频高电压高功耗的代价保证异步高Shader Clock。

然后Kepler并非完美，存在下面两个问题：

1、和GCN不同，Kepler高度精简并强化的逻辑结构使得规模缩小得到性能并非线性降低。

[attach]131987[/attach][attach]131988[/attach]

这个是GK107和Cape Verde的结构对比，Cape Verde按HD7750来说，都是各自旗舰1/4的规模，但是GK107的性能却远不如Cape Verde出彩，除开GDDR3显存的弊端，及时是高频的GT640也弱HD7750公版有20%的差距。看单元结构就是GK104的单RE双PE弱于Cape Verde的单RE双ACE。

2、高分辨率和高AA下不给力，很多人会觉得是256bit 2GB GDDR5显存的原因造成的，但我觉得问题出在指令上。

[attach]131994[/attach]

从xbitlabs的测试可以看出，即使是Asus的GeForce GTX 680 DirectCU II TOP 2 GB频率达到1137/6008MHz，综合下来也会在高分辨率和高AA下输给公版频率的7970 GHz，不管是SLI还是单卡。

[attach]131992[/attach]

我们要先回顾到AMD篇中的Tahiti的CU计算单元的结构上来看，Tahiti的发射端是轮流发射指令的，一个周期发一个，逐步往下，发到第四个发完，又刚好回来如此循环，每周期取到一个wavefront和一个发射指令，不管粒度是否为64，这组SIMD都会执行4个周期，也就是说，如果粒度为32则会空闲2个周期，这样使得Tahiti在低负载的时候，造成极大的延时，导致效率下降。

再来看NV这边，要结合上面描述到的SM结构，GK104/GF114/GK110的指令发射端是并发的，每个周期都能发多条指令，Warp scheduler负责取哪一个Warp、Dispatch Unit则把Warp中的指令分配给执行单元（CUDA Core、TMUs、SFU和LD/ST），而GK104的发射端及其每组SMX所包含的Warp都是是GF104/114的翻倍，这样就使得GK104的SMX在低负载时的执行效率高于Tahiti CU。另外，要知道GK104为何能耗低，这里也有一个原因，不过要从GF104/114说起，如果GPC在各自的SM里面的两个warp中都没找到可以超标量发射的指令的话，就会空闲一些CUDA Core、TMUs、SFU和LD/ST来降低功耗，而GF100/110的SM就算系统低负载，其所包含的2个Warp也能发射最少两条指令，使得GF100/110的每组SM基本不会有空闲的时间（这也是GTX580耗电的原因之一）。

所以我们可以理解为低负载时Tahiti跑不满，高负载时GK104跑得太满，那么Tahiti依托自己的规格更高，自然要更强一些，一直以来AMD的产品在高负载表现一直好过NV的产品，这一点有着莫大的功劳。

其实，Kepler还有一个3D Mark 11跑分很高实际游戏达不到这么高的特性，这个又和GK104的TMUs有关，3DMark11的GPU测试部分存在一个偏向于通过大块材质贴图去实现DX11特效问题。随着贴图材质不断放大，对GPU纹理填充性能要求就越高，即对TMU压力会更大。由此可得出一个结论，就是影响3DMark11中GPU分数的重要因素不完全是DX11性能，反而是纹理贴图性能。而GK104的TMUs是GF114/GF110的一倍，所以自然跑分大放异彩，公版GTX680可以跑到X3200+，比公版GTX580的X2000要提高60%以上，但实际游戏性能平均下来也就是30%左右。不过Kepler的TMUs和Tahiti的TMUs不能横向比较，只能和各自的卡去纵向比较。

通过以上的规格比较，我们就会发现，其实Kepler VS Tahiti就是“增强版的GF114 VS 缩小版GF110”。

五、展望篇

[attach]131985[/attach][attach]131986[/attach]

如果你耐心看完了上面的图片，那么你就会对上面这两幅图的核芯感到失望，没错，这个就是GK110
GK110的SMX增加了4组对你游戏毫无用处的额外16-block双精度浮点单元，仔细再看15组SMX之间居然没有看到GPC组合，那么也就是Raster引擎没了、然后在看SMX里面，PolyMorph引擎和包含的Vertex Fetch、Tessellator、Viewport Transform、Attribute Setup、Stream Output也全不见了，那么对图形性能非常重要的RE和PE都没有，这玩意还有游戏能力吗？会民用吗？个人认为是否定的。

指望70亿晶体管的GK110像GF110对付Cayman一样的去对付GCN 2.0的HD8970的朋友可能要失望了，不过不要担心，GK104非常优秀，个人认为只要再扩充两组GPC和两组MC，对付HD8970也应该能泰然面对。

最后，我想说这代卡A/N都互有优劣，Tahiti并非不完美，如果你喜欢看超高的帧数和跑分，GK104很适合你；如果你对多屏或则大显存有要求Tahiti则更加适合你。

PS：码字辛苦，谢谢各位花时间观看。附上硬派测试的30款显卡计算性能截图。

[attach]131921[/attach][attach]131922[/attach][attach]131923[/attach]
[attach]131924[/attach][attach]131925[/attach][attach]131926[/attach]
[attach]131927[/attach][attach]131928[/attach][attach]131929[/attach]
[attach]131930[/attach][attach]131931[/attach]

作者: xilin 时间: 2012-8-8 09:33
谢谢，很不错的文章

作者: Ramaxel 时间: 2012-8-8 09:38
太强大了，看不懂的鹿过，绑定

作者: 大D来了 时间: 2012-8-8 10:03
总结：当前高端性能玩GTX670 680
中端还是玩性价比7750 7770的市场

作者: liangzai1839 时间: 2012-8-8 10:09
呼呼，终于看完了。对于后面的跑分图有些疑惑，为什么有时候中低端卡的成绩会比旗舰的好的呢？

作者: wys1130 时间: 2012-8-8 10:20
简单理解来说就是 GK104纯粹是为了跑分和游戏的。
Tahiti 则是兼顾甚至为了计算领域而做的。

作者: hyenax1950xtx 时间: 2012-8-8 10:21

liangzai1839 发表于 2012-8-8 10:09
呼呼，终于看完了。对于后面的跑分图有些疑惑，为什么有时候中低端卡的成绩会比旗舰的好的呢？
...

主要是和软件的兼容性有关，比如解密测试，AMD这边只有VLIW 5D有成绩，而NV这边只有Fermi有成绩，GCN、VLIW 4D和Kepler均无成绩

还有就是架构的原因，前面我也提到过，VLIW系列的设计，非常适合DX 11简单的CS运算，最典型的就是挖矿。

作者: nighttob 时间: 2012-8-8 10:22
想不到直接写了这么大一篇，真是辛苦了……
GK100主攻计算是铁定的了，但是我还是倾向于相信会有个GK100的绘图卡，计算能力上去了完全可以暴力算出图形渲染。GK104的双精度实在不给力，不能应对绘图和双精度浮点并用的场合，其实也就是Quadro这样的专业图形卡了。

GK104肯定还有改进空间，不仅仅是堆规模。如果真如你所说没有GK100的图形卡的话，NV肯定要做一个双精度能上来的图形卡弥补空缺。然后就是看AMD会不会跟进了。
AMD和NV在这一代上都实践了流言终结者的名言——值得做的就值得做过头。

作者: nighttob 时间: 2012-8-8 10:26

hyenax1950xtx 发表于 2012-8-8 10:21
主要是和软件的兼容性有关，比如解密测试，AMD这边只有VLIW 5D有成绩，而NV这边只有Fermi有成绩，GCN、VL ...

买个6990回来，然后挂机挖矿赚钱……这主意不错……

作者: liming3431282 时间: 2012-8-8 10:26
技术贴先顶后看

作者: f13l 时间: 2012-8-8 10:28
支持看到了平时看不到的东西

作者: ppspps 时间: 2012-8-8 10:29
看完受教怪不得別人使用GK104系列芯片做3dmax或者maya的時候會覺得比上一代(GTX580之類)還不如，更加卡是不是就是因為太過于遊戲應用，放棄了雙精度浮點計算導致的

作者: coolerlan 时间: 2012-8-8 10:34
哈哈一到主页就看到个大红贴，先顶再学习~

作者: shanshan709229 时间: 2012-8-8 11:01
这文章....只能说受教了自身能力有待加强啊懂得越多才越觉得自己无知

作者: dxs 时间: 2012-8-8 11:07
好文,占座慢慢看.

作者: 仙賢戀軒 时间: 2012-8-8 11:25
哎哟我艹真有你的

用麻将来说明。。。

作者: wsy2220 时间: 2012-8-8 11:30

GK104高AA下偏弱，原来如此

作者: zangao 时间: 2012-8-8 11:37
学习了
受益匪浅

作者: liulinws 时间: 2012-8-8 11:39
对A卡有了更新更全面的认识。

作者: qnboy 时间: 2012-8-8 11:52
纯中国血统。
老外翻译过去可能看不懂麻将。

作者: 778856 时间: 2012-8-8 13:43

这代A卡没有购买欲望了期待下代吧

作者: djz6626 时间: 2012-8-8 14:24
刚刚来就看到这么好的文章，~~~~~~~~支持~~~~~~~~~~~~~~

作者: tangti02 时间: 2012-8-8 14:28
学习了~~~虽然很多不大懂~~~

作者: zxy356 时间: 2012-8-8 15:10
楼主辛苦了

喜欢痞子杠的撸过下

作者: zxy356 时间: 2012-8-8 15:12
其实我更想说的是PCEVA的玩家的技术就可以秒某些论坛啦。

作者: ericafountaine 时间: 2012-8-8 15:34
本帖最后由 ericafountaine 于 2012-8-8 15:38 编辑

其实我本来不想说什么的，不过不说我觉得对不起良心，还是注册了个号来说。

1. 其实老黄的双线设计，并不只是从GF104和GF110开始的，G92和GT200就是很明显的一对，G71和G80其实也是一对只是时间跨度稍微长了一点点

>没有什么“双线”、“单线”。GPU设计厂商会有很多个团队交互工作，比如说之前负责RV770的团队，在做完这一款产品之后投入了Tahiti的开发工作，而RV770之后的Cypress和Cayman都由不同的团队完成。一款产品从设想、立项到完成、流片至少要4~5年时间，ATI就算是三头六臂也不可能用一个团队来一款一款做，更何况还有长期的理论、架构研究。
G71是G70的削减，不是什么G80的双线。

2. AMD的架构变化较大，但是性能的提升却是线性的，而Nvidia却不同，架构小幅改变，性能却是大步迈进

>我真不知该怎么说好，如果你认为UTDP到ACE的变化比SM到SMX的变化小，那我真的没办法。Cypress的Command Processor可以看做RISC CPU，这一点是比费米强多了——虽说费米只有一个Giga-Thread Engine，无必要堆那个，但是你别忘了对面还有鬼畜的UTDP，那玩意从R520沿用至今了。4-way VLIW4变16-way vector SIMD简直是竖着变成横着，还有你看到CU里面的Scheduler了吗？那可比Warp美多了吧。

算了，别的我不说了。身为个宅应该懂日语吧，多点去观摩后藤大神吧，还有不少福利，Cortex A15什么的。

作者: ericafountaine 时间: 2012-8-8 15:50
还是和CHH当年的水平有差距啊。

可惜什么AFXIF，女王，大死人花都不在了。权当缅怀先烈。

作者: 911enzo 时间: 2012-8-8 15:54
这么说不能单纯的看3DMARK评分来判断显卡优劣了

作者: MickeyZhang 时间: 2012-8-8 16:37
码字很辛苦，写的很专业，能很好的了解这次A卡和N卡的优劣在那里。

作者: heren3 时间: 2012-8-8 16:46

ericafountaine 发表于 2012-8-8 15:50
还是和CHH当年的水平有差距啊。

可惜什么AFXIF，女王，大死人花都不在了。权当缅怀先烈。 ...

CHH当年真心耐看

作者: Epic 时间: 2012-8-8 16:48

heren3 发表于 2012-8-8 16:46
CHH当年真心耐看

那是3年前的CHH

作者: YDestinyD98 时间: 2012-8-8 16:48
写得很专业了...看不懂的路过...太厉害了!

作者: ericafountaine 时间: 2012-8-8 16:49

heren3 发表于 2012-8-8 16:46
CHH当年真心耐看

你的学姐更耐看

可惜啊可惜，技术区全给轮子个2B砍掉了

作者: heren3 时间: 2012-8-8 16:50
1. 此贴个人觉得值三个精华
2. GK104不能买，以后做CUDA开发基本就只能用便宜的GTX480了
3. 一直觉得，GK104的成功在于砍掉了游戏上不必要的浮点、分支预测、缓存单元；从而大幅度精简了单个SP的晶体管耗费，减少了布线难度

作者: heren3 时间: 2012-8-8 16:52

ericafountaine 发表于 2012-8-8 16:49
你的学姐更耐看

可惜啊可惜，技术区全给轮子个2B砍掉了

哪里来的学姐？

作者: ericafountaine 时间: 2012-8-8 16:53

heren3 发表于 2012-8-8 16:52
哪里来的学姐？

=-=在盛夏等待

作者: mingmenwukaka 时间: 2012-8-8 16:54
绝对好文章

作者: ericafountaine 时间: 2012-8-8 16:54

heren3 发表于 2012-8-8 16:50
1. 此贴个人觉得值三个精华
2. GK104不能买，以后做CUDA开发基本就只能用便宜的GTX480了
3. 一直觉得，GK10 ...

GK104主要砍了SFU和寄存器。而Tahiti却正好有很多这些。

所以我认为这次的局面，很像是当年GF100与Cypress的逆位——两家对调立场了。

作者: Epic 时间: 2012-8-8 17:00

heren3 发表于 2012-8-8 16:50
1. 此贴个人觉得值三个精华
2. GK104不能买，以后做CUDA开发基本就只能用便宜的GTX480了
3. 一直觉得，GK10 ...

买块Tesla吧，显存带ECC，Geforce偶尔出错。电气标准Geforce也不如tesla严格。都是玩游戏的买必要纠结这个，真正要gpgpu，买专业卡

作者: aibo 时间: 2012-8-8 17:08
不是传说GK110有5个GPC，每个GPC有3组SMX。
总共5*3*192=2880sp么。

再说了，这么大个芯片，肯定会用Quadro，Geforce来分摊成本。
所以必须有显示相关的部分。
唯一的悬念就是，nv会不会出完整版的而已。
早先的信息是tesla会屏蔽1组smx。

作者: heren3 时间: 2012-8-8 17:21

ericafountaine 发表于 2012-8-8 16:54
GK104主要砍了SFU和寄存器。而Tahiti却正好有很多这些。

所以我认为这次的局面，很像是当年GF100与Cypre ...

AMD看到NV每次推一款GPU，专业卡上坑了不少的人傻钱多，游戏卡这边用广告也揽去不少很眼红
于是逐渐朝着NV的MIMD做

结果彻底被NV坑了，没想到NV出这么一招

当年AMD在Barts上面干过阉割双精度浮点这档子事，减少了好多晶体管，貌似反响不好或者干的没NV出色

作者: N54]YL.M 时间: 2012-8-8 17:24
太专业.....

作者: rs0071345 时间: 2012-8-8 18:08
GK104的常规游戏性能不错

作者: cafeteria 时间: 2012-8-8 18:10
此文太牛了

作者: flhssnake 时间: 2012-8-8 18:52
.............看不懂麻将too 哎哎哎哎好文章

作者: windingway 时间: 2012-8-8 19:51
也就是说这一代FirePro卡有可能翻身打败Quadro甚至Tesla咯？

作者: nighttob 时间: 2012-8-8 20:03
本帖最后由 nighttob 于 2012-8-8 20:05 编辑

windingway 发表于 2012-8-8 19:51
也就是说这一代FirePro卡有可能翻身打败Quadro甚至Tesla咯？

Kepler这代的Quadro还没出来，Quadro 410用的GK107，我就当它没出来吧……FirePro W9000双精度是998GFlops，GK104的Tesla型号K10双精度才190GFlops，绝对是完秒……上代Tesla M2090是665GFlops。
让GK104跑双精度真是难为黄老板了，Wiki上说GK100造出来的Tesla K20双精度能到1728GFlops，不过这得啥时候……

作者: ashuiashui 时间: 2012-8-8 22:15
楼主码字辛苦
的确是很好的文章

作者: 南风咖啡 时间: 2012-8-8 23:06
好文，写的很辛苦，分2次才看完，顶一下！

作者: idle 时间: 2012-8-8 23:16
太强大了，好技术的分析，深入浅出啊

作者: 蓝天翔燕 时间: 2012-8-8 23:20

shanshan709229 发表于 2012-8-8 11:01
这文章....只能说受教了自身能力有待加强啊懂得越多才越觉得自己无知

深有同感，玩DIY玩得越多，就越需要深入学习！

作者: dzx1213 时间: 2012-8-8 23:23
楼主辛苦码字，不忍心看帖不顶，顶一个。确实学到很多东西。

作者: 小小玄 时间: 2012-8-9 00:22
刚好打玩DOTA 去硬派看了下然后转过来看这个帖子
写的真的很棒说实话其实AMD的口号就能看的出来融聚未来···但是作为一般的家庭用户，包括学生（大部分的使用者）来说。稍稍口袋有点钱的都爱买N卡。游戏毕竟才是大家更换显卡的动力
（当然是不是绝对）

作者: sd1601788 时间: 2012-8-9 00:26
大概看了下，许多不明白的地方跳开了，什么特点，怎么运算的，真心不懂，只求网友给的实际对比就好
不过楼主写得很认真，特别是形象的麻将牌比喻，让我印像深刻，了解了下各自的特点
这代看好GK104,我是游戏党

作者: hyenax1950xtx 时间: 2012-8-9 09:26

ericafountaine 发表于 2012-8-8 15:34
其实我本来不想说什么的，不过不说我觉得对不起良心，还是注册了个号来说。

1. 其实老黄的双线设计，并不 ...

发帖目的就是交流和学习，谢谢提出与指正。

1、研发时长的这个理解的，但我指的的单双线是指同一时期市场的产品，G71是G70~G80的过度，除了NV35是因为NV30不给力改造出来的情况下，之前的NV40时代也没有出现过这种现象，个人理解在G70对R520强势的时候，NV没有直接投放G80而是改进了G70推出G71这就是一个市场策略，起码在较长时间内填补了G80下面的中低端市场。

2、关于UTDP和ACE之间的变化还有，不甚了解，因为找不到资料，也一直想了解。

作者: ericafountaine 时间: 2012-8-9 10:15

heren3 发表于 2012-8-8 17:21
AMD看到NV每次推一款GPU，专业卡上坑了不少的人傻钱多，游戏卡这边用广告也揽去不少很眼红
于是逐渐朝着N ...

Barts没割SFU

Evergreen的SFU和费米的区别很大，后者的和普通ALU一起在SM里面（8/32），接受Warp Scheduler调度；前者和4个ALU一起绑定为一个SIMD Core，依靠UTDP调度。所以从原理上来说，Evergreen要砍SFU真心是件蛋疼的事。

成绩也能看出来了，Barts的通用性能也不差嘛。估计也只是割寄存器而已。

作者: ericafountaine 时间: 2012-8-9 10:40

hyenax1950xtx 发表于 2012-8-9 09:26
发帖目的就是交流和学习，谢谢提出与指正。

1、研发时长的这个理解的，但我指的的单双线是指同一时期市 ...

其实主要是“竖着”和“横着”的区别……

以Cayman为例，UTDP实际上是一个4-WAY VLIW SIMD指令发射单元，每个SIMD CORE有64个ALU，64/4=16个Streaming Processor（他们蛋疼地把每个ALU算作一个“Shader Processor”）。Cayman中，每个UTDP管12个SIMD CORE，VLIW指令到了Streaming Processor解包，给4个ALU。

ACE下面管CU，每个CU是一个4-WAY SIMD，每个SIMD又有4 LANE，每CU与每SIMD CORE同为64ALU。ACE的指令到了CU之后就分4，不像VLIW一样到了最后ALU才分4，也不用解包（所以指令其实更多）。

简单点说，前者是16*4=64，后者是4*16=64……

作者: hyenax1950xtx 时间: 2012-8-9 10:43

aibo 发表于 2012-8-8 17:08
不是传说GK110有5个GPC，每个GPC有3组SMX。
总共5*3*192=2880sp么。

目前看到的GK110是阉了一组SMX的情况，所以只有15组完整为16，如果GPC为5个话，那么绝对不科学，GPC的个数必须为16能除尽的数字，也就是只有16、8、4、2、1这5个。

作者: ericafountaine 时间: 2012-8-9 10:48
嘛，说白了Cayman从头到尾都是SIMD（但是Command Processor到2*UTDP又不是？这个不清楚了，只知道按架构推定，CP肯定具有有限的分派机能的），而GCN从ACE到CU是MIMD，从CU到4-WAY SIMD是SIMD。

好久不聊这些都记不清楚了，抱歉。

作者: hyenax1950xtx 时间: 2012-8-9 11:00

ericafountaine 发表于 2012-8-9 10:40
其实主要是“竖着”和“横着”的区别……

以Cayman为例，UTDP实际上是一个4-WAY VLIW SIMD指令发射单元 ...

Cayman的指令要到Shader Processor才开始解封，这个也是之前VLIW架构下，UTDP的指令发射模板吧，区别只是每个UTDP管理的管的SIMD Core数目不同麽？
Tahiti的ACE指令到CU以后，会被拆封成4路Wavefront，然后配发给GCN集群去执行，那么Scheduler主要就是控制周期，这么理解对麽？

作者: ericafountaine 时间: 2012-8-9 11:15

hyenax1950xtx 发表于 2012-8-9 11:00
Cayman的指令要到Shader Processor才开始解封，这个也是之前VLIW架构下，UTDP的指令发射模板吧，区别只是 ...

后一个没问题。

关于Cayman我说错了，UTDP对SIMD CORE还是多指令多数据流，MIMD，因为VLIW是给每个SP的

作者: ericafountaine 时间: 2012-8-9 11:18
老糊涂啊。自R520/580就是UTDP发指令给顶点/像素的

作者: 爱若晨风 时间: 2012-8-9 12:12
牛人牛文

作者: 乐极生悲 时间: 2012-8-9 13:55
两个字：好帖。

作者: gangkang 时间: 2012-8-9 19:46
又一科普大作，支持下。

作者: nobillgates 时间: 2012-8-10 02:43
写的真心不错，很通俗易懂

作者: dillon19 时间: 2012-8-10 09:30
通俗易懂，国粹都用上了……哈哈，相当不错的分析贴……

作者: uu_zhang 时间: 2012-8-10 14:39
支持啊。。。。。。。

作者: zoe323 时间: 2012-8-10 19:26
实在是太深奥了，太多术语看不懂，部分东西只能自己想像下了，强帖要顶下！

作者: 小明的尸体 时间: 2012-8-10 19:35
标题: 4
本帖最后由小明的尸体于 2012-8-10 19:41 编辑

新人求教楼主，那这么说，抛开专业不谈，如果是学生用电脑制图兼玩游戏的话，比如一些maya 3DMAX软件。
用GTX460（GF114）会比同级开普勒（GK104）要好一些？
或者用HD7770会比GTX460好一些？
或者说是HD7770会比同级别开普勒要好一些？

我一直没搞懂N卡的CUDA加速能对3DMAX和PS之类的软件能加成多少.....

作者: nighttob 时间: 2012-8-10 19:52
本帖最后由 nighttob 于 2012-8-10 20:01 编辑

小明的尸体发表于 2012-8-10 19:35
新人求教楼主，那这么说，抛开专业不谈，如果是学生用电脑制图兼玩游戏的话，比如一些maya 3DMAX软件。
用G ...

3dmax和PS用的是CUDA么？我记得是OpenGL，还是说都可以用？

maya和3dmax好像是要显卡的双精度浮点能力的，GF114没有提供这能力，只有GF100有（700GFlops左右）。GTX680是486GFlops的双精度能力，不考虑效率只按数比的话跟AMD HD6930差不多，HD7770是80GFlops的双精度能力。不是顶级核心的话，双精度单元都被阉的很严重，比如7950和7870游戏能力差不太多，但是7950双精度是717GFlops，7870只有160GFlops。
（以上数字来自维基百科。）

只是玩玩的话倒是没必要太关注于数字，反正maya和3dmax主要还是用CPU，显卡能加速一点就是一点。但不论怎么说GK104也是比GF114强得多的，当然价格也是。如果真是工作以maya/3dmax为主的话，还是至少买个GTX570或者HD6930这样的用吧，有钱能买到Quadro或者FirePro效果应该更好。
要是做两手准备的话，HD6930是个不错选择，也可以选448SP版的GTX560Ti（也是GF110的核心），玩游戏不错同时计算能力也不弱，但就是耗电高。HD6930降价了好几回，性价比跟7850差不多，性能稍弱一点。448SP的560Ti还是不便宜，但是CUDA用处多。怎么选就是看你需求了。

作者: 小明的尸体 时间: 2012-8-10 21:09
标题: ....
本帖最后由小明的尸体于 2012-8-10 21:21 编辑

nighttob 发表于 2012-8-10 19:52
3dmax和PS用的是CUDA么？我记得是OpenGL，还是说都可以用？

maya和3dmax好像是要显卡的双精度浮点能力的 ...

非常感谢，我自己的就是560TI，不过不是448SP的唉......最近同学要配电脑，始终在纠结那个显卡，谢谢

作者: lchong649cn 时间: 2012-8-10 21:24
简略的看了下。

作者: hyenax1950xtx 时间: 2012-8-11 01:12
本帖最后由 hyenax1950xtx 于 2012-8-11 01:19 编辑

小明的尸体发表于 2012-8-10 19:35
新人求教楼主，那这么说，抛开专业不谈，如果是学生用电脑制图兼玩游戏的话，比如一些maya 3DMAX软件。
用G ...

1、首先要明白一个问题，用民用图形显卡去跑很专业性的Maya和3DMAX，指望显卡加速是杯水车薪的事情，也不用指望民用图形卡的CUDA和Stream啦，无意义，必须要Quadro和FirePro才行，跑Maya是FirePro快些，跑3DMAX是Quadro快些，而我不相信你能把这两个软件用到这么专业的程度，所以Quadro和FirePro不是必要的。
2、其次，不要一看到3D和绘图就第一时间想到显卡，显卡是所有配件中最后需要考虑的，重点是依然是CPU、内存、SSD、HDD和显示器，CPU而言依然是物理核心数>频率>>线程数，在3DMAX里面显卡主要是负责到场景内的多边形个数，我也不敢肯定，但是据说和显存关系也比较大，CPU是主要负责渲染的；
3、然后Maya和3DMAX主要还是得看你用的插件和渲染器，AMD曾经展示过一款特别针对Autodesk Maya 2011动画渲染软件开发的新插件“Bullet Physics”，基于开源物理引擎Bullet和开放业界标准OpenCL开发而来的Maya 2011 Bullet Physics插件支持AMD APP加速并行处理技术，但是注意只能用到AMD处理器和AMD FirePro专业显卡平台上才能实现硬件加速渲染，民用级别显卡就不要指望了，插件和渲染器的选择上我就没辙了，我也很不专业；
4、Maya和3DMAX的数据调度还是蛮大的，选择SSD对你加载速度的提升很有帮助，另外HDD也必须要大，要不然你的素材库很容易就崩了，据说500G的HDD很轻松就塞爆了。
5、据说PS、Maya和3DMAXPS的最新版都对硬件的专业性需求减少很多，主要是来自于对OpenCL的支持，CUDA的意义很小，PS CS6的硬件需求比那两个要小很多，通过前面硬派测试的OpenCL性能来看，A卡要比N卡强一些，双精度浮点运算能力，A卡要强很多。
6、显示器的选择也相当的重要，一般意义来讲屏幕越大数量越多越好。
注：以上的数据和信息来自我朋友给我说明，特意去问了他一下，他在影楼工作（i7-3770、Z77、16G、128G SSD、3TB HDD x2、HD6770）

通过以上说明，因为我也不知道你准备花多少钱，就姑且按照性价比的方式给出以下建议（你可以看看这一贴：http://bbs.pceva.com.cn/thread-52633-1-1.html，她表示她现在玩AE、PS、Prime和Edius很快，她很满意，我通过观察显卡温度，发现她玩AE和Edius的时候显卡温度和占用率都上去了，证明显卡还是起到作用的）：
1、虽然查了一堆资料，但是依然不确定Intel HD Graphics P4000的能力，不过号称超过了Quadro 2000，可以小赌一下，所以CPU优先考虑E3 1245 v2（淘宝散片在1700上下），候补选择（按性价比优先）：i5 3550开四倍频>E3 1230 v2>i7 3770拉四倍频；
2、主板按照CPU的类型起步，B75（E3系列）、Z77（i5、i7系列），i5 3550散片拉四倍频+Z77 Pro3的价格E3 1230 v2散片+B75 Pro3的价格是一样的；
3、内存起步插满16G，没啥可解释的，128G的SSD也是，首选浦科特 M5S 128G、其次镁光M4 128G，HDD最好上3TB；
4、显示器的话，便宜选AOC的I2352Ve 23 LED+IPS，再贵点可以选DELL UltraSharp U2312HM 23寸 LED+IPS；
5、最后再来说显卡，因为你涉及到玩游戏，还是推荐民用图形卡好了，个人比较赞同nighttob的说法支持6930，6930、6950和7850都是可以的，6930最便宜但是显存偏小，MSI的6950 TF3 2G到是最实在的不过淘宝貌似货源很少了，然后就是7850 HAWK啦；

作者: kobe327292007 时间: 2012-8-11 11:58
收下慢慢看，好多需要学习的地方。

作者: dsldavid 时间: 2012-8-11 17:41
A卡看来全面一点

作者: nighttob 时间: 2012-8-11 19:59

小明的尸体发表于 2012-8-10 21:09
非常感谢，我自己的就是560TI，不过不是448SP的唉......最近同学要配电脑，始终在纠结那个显卡，谢谢 ...

看了楼上，LZ的回复，我也补充一点。

LZ提到的硬派网的OpenCL测试，http://www.inpai.com.cn/doc/hard/175284_8.htm，这页就是双精度的测试，可以看到A卡普遍更好一些，而且实测数据也比理论值要低得多，不过不同的测试可能也有不同的答案，这个仅供参考了。
Xeon E3 12x5 v2的HD Graphics P4000的具体性能我也没找到，Intel只是说它支持OpenGL3.1（NV和AMD的专业卡分别是4.1和4.2）和OpenCL1.1（跟A/N一样）。不过即使是1245v2也是有点小贵了，而且核显玩游戏很不给力，所以这个方案看看就得。
然后在渲染方面A卡一直以来就是有一些优势的，比如色彩及HDMI输出方便（I/A/N的我都用过，确实A的HDMI输出更方便一些）。

作者: 32names 时间: 2012-8-11 21:09
好长，不知道能不能看完，呵呵。

作者: aspirants 时间: 2012-8-11 22:55
感觉现在老黄把游戏和计算细分的更清晰了，geforce纯粹就是为了游戏放弃了大部分的通用计算。

作者: week 时间: 2012-8-12 00:43
哈哈...a\n之注解很给力

作者: hyenax1950xtx 时间: 2012-8-12 02:01

nighttob 发表于 2012-8-11 19:59
看了楼上，LZ的回复，我也补充一点。

LZ提到的硬派网的OpenCL测试，http://www.inpai.com.cn/doc/hard/1 ...

Intel HD Graphics P4000是可以和独显混合使用的，亲

作者: nighttob 时间: 2012-8-12 08:53

hyenax1950xtx 发表于 2012-8-12 02:01
Intel HD Graphics P4000是可以和独显混合使用的，亲

只是就这个个案来说，我觉得性价比不高，回头intel再来个必须配C206/C216才能用，对于一般消费者来说实在没意义了。

传说中的2600k关闭HT超频压片对比1230v2的测试结果出来了没？

作者: hyenax1950xtx 时间: 2012-8-12 09:55

nighttob 发表于 2012-8-12 08:53
只是就这个个案来说，我觉得性价比不高，回头intel再来个必须配C206/C216才能用，对于一般消费者来说实在 ...

木有啊，还在等显卡呢，等显卡到了再测

作者: jenkco 时间: 2012-8-13 01:20
其实我觉得LZ可以去中科院年

作者: rSkip 时间: 2012-8-13 03:29
GK110官方的Die photo不是很清楚了么？

作者: ydl123654 时间: 2012-8-13 14:14
文章写的很好啊～～

作者: xjfow 时间: 2012-8-14 10:53
学习了~

作者: lxsir 时间: 2012-8-14 11:48
本帖最后由 lxsir 于 2012-8-14 11:52 编辑

除了对绝对领域藏龙卧虎的IT界专业精英肃然起敬之外,还被众多敢于运用专业术语以及暗藏玄机的设问,疑问句抒发与楼主不同观点的高端架构洞悉流所折服~,,早知道小时候我也好好读书,不耍朋友了.

作者: strategy 时间: 2012-8-14 14:01
强悍的技术贴

作者: rimage 时间: 2012-8-14 15:58

看完受教;想换个670，现在用4850，ｗｉｎ７评分7.3，？

作者: lgg_wd_2 时间: 2012-8-14 16:06
学习了学习了！！！顶起来！！！

作者: hyenax1950xtx 时间: 2012-8-14 16:07

rimage 发表于 2012-8-14 15:58
看完受教;想换个670，现在用4850，ｗｉｎ７评分7.3，？

追求7.9的话，6870默认就7.9了

作者: Liuxudong926 时间: 2012-8-14 20:41
谢谢楼主精彩的文章！

虽然我看不懂不过觉得应该是好文章。

这篇文章和我昨天看的DX11.1情况下对比AMD显卡的情况就比较明朗了。
不过看完后我更纠结了是否应该升级显卡？还是再观望？

作者: jsntrgsy 时间: 2012-8-14 20:44
http://bbs.5ichecker.com/read-htm-tid-45335.html
年初写的~多多探讨

作者: hyenax1950xtx 时间: 2012-8-14 21:55

jsntrgsy 发表于 2012-8-14 20:44
http://bbs.5ichecker.com/read-htm-tid-45335.html
年初写的~多多探讨

点进去一看到你的头像我就湿了

，好多，写得一定很辛苦，收藏了，慢慢看

作者: junweb 时间: 2012-8-14 23:21
还需要些时间来领悟体会

作者: michelelee 时间: 2012-8-15 11:33
HAWK 7870我就选这卡了，。。

作者: hyenax1950xtx 时间: 2012-8-16 01:21

coollab 发表于 2012-8-15 22:10
我就问楼主一个问题: fermi和开普勒的Cuda core一样吗？

不一样，一个是MIMD，一个是SIMT

作者: 青泷 时间: 2012-8-16 11:17
技术党！学习一下

作者: foxroz2003 时间: 2012-8-17 09:38

nighttob 发表于 2012-8-8 20:03
Kepler这代的Quadro还没出来，Quadro 410用的GK107，我就当它没出来吧……FirePro W9000双精度是998GFlop ...

你在搞笑么？GCN的FirePro W9000被上一代的Fermi Quadro6000完秒（Maya除外），他能完秒下一代quadro？还有绘图专业卡不需要双精度，而且双精度性能与绘图性能基本无相关性。Quadro系列对于SW，Maya、autoCAD之类比一般游戏卡要强的是强在它的线框性能，实时预览模型不出错，基本不需要任何双精度的计算。就算Tesla系列也有分单精度和双精度计算的，只有大量和深度迭代运算的通用计算项目才需要用到双精度计算（保证计算结果），这就是为什么Tesla要分K10（专注单精度计算）和K20（专注双精度计算）系列的原因。还有双精度计算由额外的单元提供的，而不是SP，图形运算主要是SP的事。

欢迎光临 PCEVA,PC绝对领域,探寻真正的电脑知识 (https://bbs.pceva.com.cn/)