PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

NVIDIA改走能耗比路线:GeForce GTX 680 Kepler架构解析与评测

  [复制链接]
跳转到指定楼层
1#
royalk 发表于 2012-3-30 15:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:15145|回复数:34
前言:GK104,它本非旗舰

在AMD的GCN架构显卡问世三个月后,NVIDIA也发布了新一代的Kepler架构显卡。首批上市的核心代号为GK104,被命名为GeForce GTX 680,同样使用最新的28nm制程。


Kepler架构是基于2010年问世的Fermi架构的改进,所有关于Kepler的改进,都是基于一个理念——能耗比(Performance/Watt)。我们知道NVIDIA自从G80开始,在每一代GPU刚问世的时候或多或少都会碰到功耗过大、良品率低等问题的困扰,使得最顶级的型号非常少见、功耗过大,甚至刚上市时无法拿出全规格的GPU。

然而GK104却不一样,NVIDIA这次在GK104中集成了35亿晶体管,共1536个CUDA核心,晶体管数比Fermi多了10%,CUDA核心数则翻了三倍。即使如此,GK104核心的面积也仅有294mm²,只是GF110的核心面积一半多一点,比起AMD的Tahiti核心面积也小了20%。

GK104 GeForce GTX 680的基本规格:
CUDA核心:1536个;
ROP:32个;
TMU:128个;
核心频率:1006MHz;
核心加速频率:平均1058MHZ,最高1110MHz;
显存规格:256bit 2GB GDDR5;
显存频率:1502MHz(等效6.008Gbps);
TDP:195W;
12V外接供电接口:双6pin;
视频输出:2个Dual-Link DVI,1个HDMI,1个Display Port 1.2;
PCIE接口规范:PCIE 3.0;
官方定价:499美元

结合NVIDIA对核心命名的规律,以及GK104核心的规格:256bit的显存位宽,294mm²的核心面积来看,它并不是Kepler架构中最高级的核心,它只是一个相当于GF114——即GTX 560 Ti级别的核心,却有着大幅超越GF110的性能、和GF114稍高的功耗,我们已经好多年没有看到一向激进的NVIDIA会把一个旗舰级的GPU功耗做到200W以下。确实是的,在GK104背后还有个更高级的GK110,不过那是后话了。但是有一点非常关键,也是让GK104被命名为GTX 680的主要原因,那就是它的性能超越了AMD的HD 7970。

Kepler架构解析

首先来看GK104的核心照:


Steaming Multiprocessor Xtreme(SMX)
与Fermi一样,Kepler继续使用GPC(图形处理集群)结构。GK104核心拥有4个GPC,每个GPC包含两组SMX和一个Raster引擎。此外GK104核心还包含了共享的32个ROPs和L2缓存,PCIE 3.0接口、GigaThread引擎,以及256bit的显存控制器。

SMX依然是组成核心的主要计算单元的主体,其实就是前一代SM的基础上改进而来的,加了个Xtreme作为包装词汇,因此可以译作“极致流处理器”。在GK104核心中,一组SMX主要包含了192个CUDA核心、一个全新的Polymorph Engine 2.0、64KB的L1缓存、16个Texture单元。


Shader频率及能耗比
NVIDIA称从新设计的SMX结构的能耗比可以达到Fermi的2倍,主要来自于Shader频率的下降。在Fermi时代,Shader频率是GPU核心频率的二倍,例如GTX 580的Shader频率就达到1544MHz,这样就使得核心频率非常难以提升,对良品率要求也高,并且功耗很大。Kepler把Shader频率与核心频率同步,让功耗下降。因此,GK104的初始频率就达到了1GHz以上。


相比之下,以三倍的CUDA核心数、更低的Shader频率来看,GK104的理论计算性能还是要比Fermi高,不考虑复用效率问题,简单的计算方法就是1536/512*1006/1544,即大约相当于GF110核心195.5%的计算能力,因此GK104核心的计算能力直接从GF110的1.58TFLOPS提升到3.09TFLOPS。

当然,NVIDIA如何做到塞下三倍数量的CUDA核心还能把核心面积减小到只有GF110的56%的,也跟CUDA核心内部结构变化有很大关系,我们知道GF104在GF100的基础上改进了CUDA核心内部结构之后功耗降低了许多,执行效率也有所提高,GK104肯定也有不少的改变,但NV并没有提供这部分资料。

Polymorph Engine 2.0
在Kepler架构的SMX中,另一个大改进就是Polymorph Engine,我们知道在Fermi架构中,Tessellation(曲面细分)能力之所以那么强,主要就是归功于Polymorph Engine。根据NV的说法,虽然GTX 680的8组SMX中仅包含8个Polymorph Engine,相比GF110的16个少了一半,但是重新设计的Polymorph Engine 2.0可提供同频率下两倍于Fermi的效能,因此加上频率的提升,GK104的曲面运算能力比GF110还要再高30%。以下是Unigine Heaven Benchmark这个Tessellation代表性测试的运行情况,在1920x1080分辨率、4xMSAA、曲面细分开到最大的条件下,GTX 680跑出54.7的平均fps,而GTX 580仅有平均41.6fps。


Bindless Textures
在Direct X 11规范中,每一个shader对应最多128个Textures,有点像QT里的Signal/Slot机制,当代码执行到某个地方的时候,可以发送一个信号,然后对应被标记的槽函数就会被执行。这样写代码的方式会在一定程度上增加代码的复杂程度、占用更多的CPU资源,但是逻辑也更加清晰。


在开发游戏代码的时候,CPU需要先把目标Texture绑定到某个shader,然后GPU才能对它进行操作。到了Kepler,shader和Texture的绑定这一步被省略了,改为自由组合的方式,按NV的说法一个shader甚至可以对应超过一百万个Texture,bindless就是无约束的意思。这样一来CPU只需要发出目标Texture请求,GPU就能直接操作对应的shader,这样一来减少了CPU的资源使用,效率可以得到提高。目前DX11还不支持这个功能,所以这功能对于基于DX的游戏来说可以忽略,不过NVAPI里已经对OpenGL 4.0扩展支持Bindless Textures。
参考资料:http://developer.download.nvidia ... indless_texture.txt

优化的指令流水线
除了三倍数量的流处理器和每个SMX四个指令调度器之外,Kepler对指令调度流水线也做了一定的优化,下图就是对Kepler与Fermi的指令调度流程的区别举例。简单来讲,指令在执行之前需要先解码。对于Fermi来说,指令在解码后、执行之前需要经过硬件队列和一套关联性检测机制(Dependency Check),需要耗费较高的功耗;而Kepler取消了这套检测机制,改用软件对指令“标记”的方式,在解码之前先选择被标记的指令,这样一来就简化了指令调度的流水线,增加执行效率并减少硬件开销,降低功耗。


改良的GDDR5控制器
Kepler的显存控制器IO被重新设计过,这样一来显存控制器不再是显存频率的瓶颈(其实AMD早在Cayman上就这么做了),所以GTX 680的默认显存频率也达到了1502MHz(等效6Gbps)。而通过超频实测我们发现,0.3ns的显存可以超频到1850MHz以上,与HD 7970表现很接近。但是,GK104的256bit位宽依然让显存总带宽保持在192.26GB/s左右,与GTX 580接近。不过,与Fermi类似,GK104上超频显存对性能的提升非常有限,来看看以下几种频率组合下3DMark 11 Performance模式第一场景的fps变化情况:


我们看到不管核心频率处于多高的情况下,即使显存频率提升300MHz(等效1.2Gbps左右),fps成绩也仅提高1.4%左右,这个幅度可以说是非常小。

Kepler新技术:自适应垂直同步与TXAA

上次我们介绍过Virtu MVP的时候提到过传统的垂直同步的工作方式,垂直同步会把帧数限制到刷新周期的整数倍,以现在的液晶显示器为例,就是N/60秒(或60/N fps)。这样一来在游戏高于60fps的时候以60fps运行,低于60fps的时候,下一档就会被限制到60/2=30fps。这中间存在着巨大落差,在帧数一下子掉一半的时候有可能会产生卡顿现象。NVIDIA在驱动中加入了一项Adaptive VSync——自适应垂直同步技术,允许在低于60fps的时候自动关闭垂直同步,高于60fps的时候打开垂直同步,这样一来就避免了帧数从60骤降到30的时候带来的画面卡顿现象,使得游戏画面更加平滑,增加用户体验。


和Virtu MVP的垂直同步相比,Adaptive VSync不需要外挂软件与平台限制,也不会有第三方支持带来的不稳定因素;在60fps以下关闭垂直同步虽然会造成帧数刷新与显示器刷新周期不同步,但是低于60fps必然高于一个刷新周期,画面撕裂会被前(后)一个刷新周期被覆盖,并且超出人眼的识别频率,因此就不是那么明显了。在超过60fps的时候,Adaptive VSync可以把帧数限制在60fps,这样可以在一定程度上降低显卡功耗。因此Virtu MVP是采取一个激进的方案,在任何时候开启垂直同步,并且不限制帧数;而Adaptive VSync则是采取一个相对折衷的方案,它们都比传统的垂直同步更好,但我认为NV的方案对于游戏体验来说更合适。

当然,还有一种“半刷新率”的自适应垂直同步,这样一来帧数会被限制在30,肉眼可能会感觉出不流畅,不建议使用。


TXAA是一种全新的基于硬件的多重采样算法,与FXAA类似,采用边缘检查机制。TXAA有两个等级:TXAA 1和TXAA 2。根据NV的说法,TXAA 1的质量就超过MSAA 8x,而性能可以达到MSAA 2x的水平;而TXAA 2画质更好,并且也可以达到MSAA 4x的性能水平。

虽然现在支持FXAA的游戏非常少,但是可以通过300以上版本驱动强行开启FXAA。还有一点注意的是,在NV驱动中开启FXAA后,用Fraps截图是无法提现出FXAA的效果的,要使用PrintScreen按键才行。而TXAA将会在未来一年内获得支持,现在已确定支持的引擎有Unreal 4 Engine、Crytek、BitSquid等;游戏则有《无主之地2》、《Eve Online》、《神秘世界》、《机甲战士Online》等。


以下是NVIDIA官方展示的不开启AA、8x MSAA与TXAA的画质对比。如果真如NV所说的画质和性能,那么TXAA是一个小开销、大成功的技术,值得各大游戏引擎采用。


Kepler新技术:3+1屏输出和NVENC

NVIDIA在多屏输出的支持和推广上没有AMD的Eyefinity那么高调,在Fermi时代最多只支持单卡三屏输出。到了Kepler,NV稍微改进了一下这个技术,现在NVIDIA Surround支持单卡3+1屏输出。为什么说是3+1屏呢?我们看到GTX 680的视频输出部分是2个Dual-Link DVI、一个HDMI和一个DP 1.2,其中前三者可以组建三屏输出,DP可以单独输出一个辅助屏幕,这样就可以边用三屏玩游戏、看电影,边用单屏做别的事情。

NVIDIA还加入了边缘矫正的功能,把显示器边框隐去的部分像素显示出来,这样可以避免在组建多屏的时候边缘的一些画面看不见的问题。


在驱动中可以调节分辨率以矫正边缘:


并且,NVIDIA这次还把3D Vision Surround在单卡上实现支持,而不像以往都要至少双卡SLI或者单卡双芯才能支持,这样也算是放低了门槛。

Kepler还设计了单独的硬件多媒体引擎——NVENC,类似Intel在Sandy Bridge里的QuickSync,属于一种基于H.264编码的硬件加速功能。在Fermi时代,转码工作是交由CUDA核心完成的,虽然CUDA核心转码速度已经非常快,但是那样也很耗电。

根据NV的白皮书说法,NVENC引擎可提供四倍于CUDA核心的H.264转码速度,并且功耗更低。

与QuickSync一样,NVENC也需要软件的支持, NV已经向一些老牌多媒体转码软件提供了NVENC的SDK,目前Cyberlink Media Espresso已经放出了一个beta版本对其支持,其它软件如Power Director、MediaConverter也将陆续支持。

由于我手上暂时没有H.264片源,这里引用guru3d的测试结果,他们使用Media Espresso把200MB的1920x1080 H.264编码视频转为MP4格式,GTX 680在使用NVENC加速后,仅用12秒就可以完成,比Intel的QuickSync更快,并且比GTX 580的CUDA转码还要快一倍。


Tom’s Hardware Guide也做了类似的测试,用Media Espresso转换一个449MB的1920x1080 H.264编码片源为iPad 2格式,GTX 680仅用18秒完成,而GTX 580则使用33秒,NVENC同样使得GTX 680转码快了近一倍。


Kepler新技术:GPU Boost与offset超频

CPU的睿频技术已经出现了三年多,如今显卡也可以自动加速了,NVIDIA为其命名GPU Boost。前边介绍过,GK104核心最多可由1006MHz加速到1110MHz,即大约10%的频率提升。然而,事情并没有那么简单,下面我们看看这个GPU Boost到底是怎么回事。

事实上,NVIDIA的自动加速比Intel和AMD的CPU加速都复杂得多,带上原始频率,它分为9个档位。从1006MHz开始算,每一档提升大约13MHz的频率,同时电压也相应提升0.013-0.025V,这都是一一对应的关系。


这么多档位是干嘛用的?NVIDIA的自动加速机制与Intel的睿频有几分相似,都是通过温度、TDP以及GPU及显存的利用率来实现的。其中占主要影响的是TDP和温度,而GPU及显存占用率则是次要的影响因素。


TDP:NVIDIA在GTX 680中加入了一项TDP侦测,它会显示当前负载是TDP的百分之多少,那么在默认情况下,自动加速就不允许TDP长期超过100%。这里的TDP和前边规格里标的195W TDP并不是一回事,NVIDIA只给了170W的TDP空间来加速,如果加速到1110MHz超过TDP,那么就降下来一档,还是超过,就再接着降,直到默认的1006MHz为止。

温度:显卡在全速运作时温度会升高,升高温度又会带来更大的功耗,制约Boost的高度。不仅如此,温度本身也会制约Boost,在70度的时候,Boost无法达到最大频率,在85度的时候,则无法达到第二档频率。

占用率:在GPU占用率不高的时候,Boost也不会触发,例如有时候我们打开一些显卡侦测软件,GPU核心会跳到3D频率上,但是这时候却是没什么负载的,这个时候,Boost就不会启用。

与AMD的Powertune类似,TDP Limit上限也可以在软件中调整。目前MSI Afterburner 2.20 beta 15已经可以把TDP Limit调到最大132%,这样就可以有更多的Boost机会,并且通过我们实测,调大TDP上限可以给某些3D应用程序带来一点性能提升。


下面我们尝试使用四张图片来说明GPU Boost的两大影响因素,TDP和温度。我们在Afterburner中记录频率和电压的变化,以及当前功耗是TDP的百分之多少,并注意furmark的温度。以下图片数据请点击放大查看,首先是默认的100% TDP Limit,在一开始时Boost频率可达1058MHz,随着温度升高,GPU功耗加大,Boost频率也在慢慢降低,到温度稳定在77度时,Boost频率基本只稳定在1019MHz,也就是提速一档。而这时候TDP一直在98-102%左右徘徊。


然后把TDP Limit调到132%,我们看到Boost频率可以达到最高档1110MHz,然后随着温度升高下降到1097MHz。这时候TDP功耗最高达到118%,离132%还有一点距离,因此我们认为降低到1097MHz正是温度导致的,从图表上我们也可以看到,温度达到70度的时候就会降一档。下边我们的性能测试也会基于这个模式测试,同时监控性能与功耗的变化。


我们再把风扇转速调高,避免GPU达到70度,这个时候GTX680终于可以稳定以最高的1110MHz运行了。


最后,把TDP Limit调到最低的71%会有什么后果呢?看看是不是跟股票一样跌得惨不忍睹?当然,这时候整机功耗也小了大约50W。


目前,这个Boost技术无法关闭,因此所有基于Kepler的超频都要加上这么一个动态加速,超频只能是使用offset的方式进行。例如加100MHz的offset频率,那么实际频率就会在1106-1210MHz之间波动。如果这时候超过TDP,最低频率可能还会低于1106MHz。

GeForce GTX 680:显卡介绍

各大厂商也在第一时间纷纷推出了公版的GTX 680显卡,其中微星推出的型号为N680GTX PM2D2GD5,一切都遵照公版设定。以下我们也以该显卡为例来测试公版GTX 680的性能。


N680GTX PM2D2GD5的频率与规格与公版GTX 680完全相同,1006/1502MHz,平均Boost频率1058MHz,256bit 2GB的显存。


GTX 680的两个6pin供电接口排列方式与以往的显卡有些不同,是直列的,并且两个6pin接口的方向是相反的,不要接错了。视频输出与前边提到的3+1屏相符,2个DL-DVI,一个HDMI,一个Display Port 1.2。SLI桥为两个,可以组建4 way SLI,与以往的旗舰级显卡一样。


GeForce GTX 680:拆解与散热

要拆解GTX 680需要一套T6规格的六角梅花螺丝刀,否则PCB上边的散热片是拆不下来的,只能拆掉外边的罩子和散热片。


这是单独拆掉外壳后的样子(引用官方图片),外壳的作用主要是引导涡轮散热的风道。我们看到散热片边缘的Fin并没有和其它涡轮散热一样直接延伸到挡板附近,而是呈梯形排列并且距离挡板还有一段距离,NV称这样可以减小风阻,优化风道。


全部拆下来,与以往的公版显卡一样,显存和供电MOSFET采用一体式散热片,另一方面这样也起到加固PCB的作用。


公版GTX 680的散热片面积并不大,这也是根据它195W的TDP所设计的,中间内部埋了三条被压扁的热管,与核心接触部分为铜底座,相当于一块均热板。


所有的螺丝,一共30颗,其中最右边的14颗都是需要T6螺丝刀的。


GeForce GTX 680:PCB与供电介绍

以下是GTX 680公版PCB全貌,我们提供了清晰大图下载,有意研究的同学可自行收藏。
正面

背面

对GTX 680的PCB总体印象是并不豪华,一分功耗一分用料的感觉。核心供电排列非常有个性,之前曝光出来的PCB是5相核心供电,结果正式发布时还被cost down了一相,输入端的滤波电容在右侧,输出端滤波电容在下方排成直列。此外我们看到双6pin接口虽然并排在一起了,但是NV还是预留了一个6pin的位置,难不成NV想用这个PCB搞出3个6pin的火星卡?


PCB背面也非常有个性,我们看到“嫁接”的PWM芯片,一排SMT输出端滤波电容,以及被cost down掉的一排钽电容空焊位。另外还是左上角注意双6pin供电的地方,按背后的引脚来看,这个PCB是可以做出8+6+6三个外接供电的。


供电全貌:核心被cost down了一相变成4+2相供电,其中核心供电滤波电容为立隆,显存供电为钰邦,核心供电采用的上下桥MOSFET为安森美NTMFS4939N、NTMFS4935N,组成一上二下的规格,内阻分别为8.0mΩ和4.2mΩ,属于中等偏上的水平,每一相都有独立的Driver;显存供电MOSFET为一上一下的规格,美格纳MDU1516、MDU1514分别作为上下桥,内阻分别为14mΩ和9mΩ,使用一颗独立的PWM,型号未知,疑似RT9605B。这么大的内阻还好是用在显存供电上,负载不大,如果是在核心供电上的话……好吧,我对美格纳的MOSFET一向没有好感。不过4000元的显卡这个用料确实比起HD 7970的DirectFET来说差了不是一点半点。


核心供电PWM芯片,Richtek RT8802A,2-5相PWM均可,支持VRD11,PWM频率为300KHz。这样用SMD的方式贴在背面应该也是为了缩短PCB长度。


显存:Hynix 0.3ns,实际标称频率1666MHz,所以只要在IMC允许的情况下能超到1850MHz也不是什么新鲜事。


DVI接口屏蔽罩,在GTX 580公版上面是没有的,GTX 680又使用了。


测试平台与性能测试数据汇总

测试平台
CPU:Intel Core i7-3960X OC 4.5GHz
主板:ASUS RAMPAGE IV EXTREME
内存:三星黑条DDR3-1600 4Gx4
显卡:MSI N680GTX PM2D2GD5
硬盘:西数320G蓝盘
电源:安耐美冰核REVOLUTION 85+ 1050W
散热器:Notcua NH-D14
驱动:ForceWare 301.10 WHQL

显卡基本信息识别:GPU-Z


2D模式电压:0.987V,核心频率324MHz,显存频率162MHz
3D模式电压:1.062V,核心频率1006MHz,显存频率1502MHz
最大Boost频率:1110MHz,电压1.175V。

注:301.10驱动屏蔽了X79平台的PCIE 3.0支持,NVIDIA这么做的用意还未知,也许是为了稳定。不过PCIE 3.0应该对3D性能也基本无影响,所以忽略它吧。再不过……要破解也不是不可以,现在已经有办法通过修改注册表破解驱动支持PCIE 3.0了。

附修改方法(来自日本网站4gamer.net,仅针对X79主板)
用Regedit打开注册表,进入HKEY_LOCAL_MACHINE \ HARDWARE \ DEVICEMAP \ VIDEO,找到你显卡驱动的{GUID}\0000,每个电脑的ID不一样,反正右边是有很多键值的,只有那一个,也可以在这个子目录下搜索GTX 680就能找到。

找到后新建一个DWORD值,名为RMPcieLinkSpeed,修改键值为4,保存,重启。


重启后打开GPU-Z,显示显卡连接速度已经是PCIE 3.0了。


按照前面提到的,这次测试我们分别对GTX 680在默认的TDP限制与最大132%的TDP限制上做性能对比,另外我们还加入了N580GTX Lightning以及R7970 Lightning同平台的对比数据,来围攻GTX 680,其中N580GTX Lightning由于301.10驱动无法识别,我还是使用旧版本的295.73驱动。


从测试结果我们看到,在100%的标准TDP限制下,GTX 680大约比GTX 580性能领先了10-30%不等的幅度,和出厂超频的R7970 Lightning相比则互有胜负,其中GTX 680获胜的项目更多一些,如果是公版HD 7970扣除10%的性能,GTX 680应该除了Crysis一项之外其余均能取胜。

在放宽TDP上限后,GTX 680的性能在某些项目上又有了小幅度的提升,不过这个提升我们也可以很容易找到规律,那就是TDP读数超过100%越多的项目提升也相对比较多,而TDP在100%左右的项目则几乎无提升。说明在一部分测试项目100%的TDP即可满足Boost到最高档位频率:1110MHz的条件,性能当然就没有提升了;而另一部分则由于负载较大,无法Boost到最高档频率,在放宽TDP上限后Boost频率又有所提升,因此可以带来小幅度的性能提升。

在功耗方面由于有TDP限制,Furmark功耗和游戏功耗基本上差不多,都在345W左右,在放宽TDP上限后,根据前边记录的,Furmark功耗来到117%的TDP值,这时候距离我们设定的132%还有一段距离,因此制约Boost频率的因素只剩下温度。

以上是基于PCIE 2.0的速率测试的,下面附一张修改PCIE 3.0之后的3DMARK 11 X模式跑分截图,与PCIE 2.0模式下的X3271分相比基本无区别。


功耗、噪音与温度测试

在室温24度,裸机环境,默认100%的TDP Limit下,Furmark温度稳定在79度,这时候风扇转速为2200RPM左右,非常安静。NVIDIA这次一改以往涡轮风扇无法忍受的噪音的情况,温度也还算可以接受。但是注意,这是带着TDP Limit测出来的,因此在玩游戏的时候温度可能不会比这个数低太多。


再把TDP Limit放开到132%,温度来到82度,根据前面的说明,Boost频率为第二档,1097MHz,只是因为温度超过70度而掉了一档,这时候电压也同步提升到1.15V,功耗大约在117-118% TDP,整机功耗大约增加30W。这个温度就比较靠谱了,玩游戏一般达不到这么高的负载。此外,这时候风扇转速在2500RPM左右,依然很安静。


在待机功耗方面,我们从上边的GPU-Z待机截图里可以看到大约是10-11%的TDP,也就是17-19W之间,对应整机功耗大约162W,这个待机功耗比号称Zerocore power的R7970 Lightning在开启相位控制后还要再低上10W。

超频研究

前面说了,在GK104上,所有的超频都要基于频率的offset,如果你没有明白这个offset是怎么回事,我们来画个图说明。


也就是说不管你提升多少频率,都是基于这个Boost的基础上的,默认频率超了100MHz来到1106MHz,那么最大Boost频率也要加100MHz达到1210MHz。所以要超频GK104,我们要考虑两方面,一是最大Boost频率能不能稳定,二是如何让显卡尽量跑在最大Boost频率。

要解决第一个问题很简单,我们只要从1110MHz开始算,加上我们超频加的Offset,就可以知道我们超到多少频率。目前微星的Afterburner软件可以支持最大549MHz的核心频率offset,以及最大1000MHz的显存频率offset。注意,Afterburner里显存的频率是等效两倍的,也就是说实际上显存最大频率只有+500MHz,即最大2002MHz。


第二个问题就又回到了前面我们说的Boost机制,除了尽量放高TDP上限外,还要保持温度低于70度。那么我们要做的就是把TDP上限调到132%,风扇转速也调到最大,这样可以尽可能不碰触TDP上限,且保持温度低于70度,这是我们对避免满载掉频率能做出的最大努力了。

最终超频结果,在+180MHz频率、+724(362)MHz显存时拿下最高分,3DMark 11 P11592及X3943的超频结果,比默认大约提升15%的水平。




我们在截图上发现两个问题。第一是我没有加压,因为目前Afterburner还不支持给GK104加电压,虽然可以调到+100mv,但没有效果。第二个问题是TDP上限132%还是不够,在超频之后最大功耗来到了瞬时141%的TDP,迫使显卡偶尔降频,事实上我们看到,在X模式中只有第三场景是一直以最高频率1291MHz跑完的,其它三个场景以及P模式均有不同程度的降频。

这个情况还是没有加压的超频,如果能加电压,功耗还会再继续提升,132%的TDP Limit是远远不够了,加上温度影响,如果加压超频可能还会出现越加压越跑不上去频率的情况。因此想完全解放GTX 680的超频潜力,TDP限制必须完全解开!这个问题就坐等各家非公版修改显卡BIOS发力吧。

结论:NVIDIA走能耗比路线

GTX 680的测试到这里就结束了,它给我们交了一份很满意的答卷。不仅从HD 7970手里重新夺回性能宝座,而且上市定价还比HD 7970低了50美元,并且别忘了,GK104原本只是一个“GTX 660 Ti”级别的定位,NVIDIA还留了一手——GK110。因此,AMD的GCN架构虽然新颖,但是面对Kepler,HD 7970的麻烦大了。

NVIDIA的能耗比路线随着GTX 680的推出迈进了一大步,不像以往那样一个劲往上堆晶体管,不惜以更大的功耗为代价来提升性能,造成各种难产问题。GK104核心得益于架构的改进,以GF110一半多一些的核心面积,做到它130%左右的性能,并且即使是涡轮散热,满载也非常安静。

然而随着功耗的降低,在公版显卡上各种做工cost down也在PCB上体现得淋漓尽致,整卡PCB做工仅相当于GTX 560 Ti的级别。虽然这样cost down在品质上可能没有太大影响,但这也是GTX 680作为一张定价4000元的显卡让玩家们心里不舒服的一个地方,看来非公版的GTX 680要好好的“超公版”一回才能对得起做工控们了。


PCEVA综合评价:NVIDIA终于选择了正确的路线。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
royalk  楼主| 发表于 2012-3-30 15:38 | 只看该作者
PCB大图
正面

背面

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
3#
amtel 发表于 2012-3-30 16:46 | 只看该作者
关于GPU Boost的介绍很详细
4#
solonace 发表于 2012-3-30 16:50 | 只看该作者
不知道这卡最后普及时能卖到多少钱
5#
fupinke 发表于 2012-3-30 17:04 | 只看该作者
solonace 发表于 2012-3-30 16:50
不知道这卡最后普及时能卖到多少钱

+1                                 
6#
royalk  楼主| 发表于 2012-3-30 17:23 | 只看该作者
solonace 发表于 2012-3-30 16:50
不知道这卡最后普及时能卖到多少钱

估计一时半会降不下来,要降也是AMD先降
7#
无道刹那 发表于 2012-3-30 18:17 | 只看该作者
本帖最后由 无道刹那 于 2012-3-30 22:07 编辑

这个算是刷新了公版旗舰卡的散热做工下限吗?当然,也许对N家来说这玩意不算旗舰
不过功耗确实控制很好,价格还低于7970,这样我对660的期待更强烈了
8#
sapphirex 发表于 2012-3-30 18:21 | 只看该作者
看完了R大的评测,之前NV宣传口号“等待Kepler中,请耐心,耐心,当时机成熟,它将不可战胜。”“对于Kepler,NVIDIA充满期望,并表示它会成为该公司有史以来最为出色的GPU”全都成真了。

660Ti改名680,那么谁来对抗7800系列呢,我更关心这个。架构设计很优秀,性能强的同时功耗更低了,期待开普勒后续的显卡。

拿这文章再对比下某CXX-某X的680评测,也了解到“好白菜都被猪拱了”的深刻含义。

9#
overthink 发表于 2012-3-30 19:53 | 只看该作者
老黄很给力,要不要叛变呢,这是个问题
10#
ghehikaru 发表于 2012-3-30 20:08 | 只看该作者
只能看看...用集成显卡的飘过...
不是烧友,完全木兴趣呀木兴趣...
11#
索命书生 发表于 2012-3-31 08:46 | 只看该作者
写得很好,解释了我不少的疑问。
12#
wsy2220 发表于 2012-3-31 09:36 | 只看该作者
非常详细清晰,原来Bindless Textures只支持opengl,厂商们的宣传有误导倾向
另外十分看好TXAA
13#
untlia 发表于 2012-3-31 10:08 | 只看该作者
期待降价到GTX560TI的上市价格,目前还是6850CF先顶住吧。
14#
royalk  楼主| 发表于 2012-3-31 10:12 | 只看该作者
wsy2220 发表于 2012-3-31 09:36
非常详细清晰,原来Bindless Textures只支持opengl,厂商们的宣传有误导倾向
另外十分看好TXAA ...

bindless textures目前DX11是没有的,最快也要等以后新的DX API出现了
要不就用NVAPI,不过我估计很少人会装这个
而且我认为这个功能主要是减少CPU开销的,现在CPU性能都过剩了。。。
所以目前把这个当宣传点我觉得没意义
15#
gegepang1 发表于 2012-3-31 16:20 | 只看该作者
泡泡上不是都有规划图了吗 660  gk106
16#
zouqi0707 发表于 2012-3-31 18:38 | 只看该作者
还是PCEVA的评测好,很详细,解决了我很多有疑问的地方。比起CHH的照片式评测好多了。
17#
yjc002 发表于 2012-3-31 22:16 | 只看该作者
PCEVA的评测很给力,比其他的地方描述好多了!GPU 加速那段写的真好!
18#
javac 发表于 2012-4-1 07:20 | 只看该作者
是不是说Kepler有完整的材质引擎,在哪看到过,再也找不到了……
19#
spartan 发表于 2012-4-1 10:51 | 只看该作者
R大的评测一如既往地给力……
20#
z496834134 发表于 2012-4-3 04:38 | 只看该作者
好的 我老老实实等110了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部