PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

Kepler架构火力全开 NVIDIA GeForce GTX TITAN评测

[复制链接]
跳转到指定楼层
1#
royalk 发表于 2013-3-4 19:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:27411|回复数:87
前言

去年3月,NVIDIA发布了基于全新Kepler架构的GeForce GTX 680,尽管它只是GK104核心,在定位上并非旗舰,但在当时发布之初,性能已经盖过AMD的Radeon HD 7970。然而后来AMD推出了HD 7970 GHz Edition,再加上一年以来对GCN架构的驱动层改良优化,使得HD 7970后来性能又有不少提升,甚至在高分辨率下超越了GTX 680。随着用户对画质、分辨率等直观游戏体验的需求日益增长,以及新游戏的3D运算规模越来越大,GTX 680渐渐露出了它本应属于非旗舰芯片的特征,应付高分辨率、高画质力不从心的现象愈发明显。但NVIDIA早有准备,在之前我们测试GeForce GTX 680的时候就提到了GK110核心的存在,它才是Kepler架构真正的旗舰级芯片。


在去年下半年,GK110核心一直只以Tesla K20X/K20的专业计算卡身份出现,而如今,它已正式被用于民用级别。NVIDIA在2013年2月19日发布了GeForce GTX TITAN,就是采用GK110核心的Kepler旗舰级显卡,而TITAN这一名字由来,应该是以美国橡树岭国家实验室里使用Tesla K20X计算卡的超级计算机命名。

就在GK110核心作为计算卡发布之后,有关GK110核心的民用显卡被叫做GeForce GTX 780的小道消息不绝于耳,但实际上NVIDIA并没有使用一贯的数字命名,而是使用了TITAN这一特殊的称谓。我们猜测其原因有二:一是在AMD今年无法推出GCN二代也就是HD 8000系列显卡的情况下,NVIDIA并不想在桌面级显卡过快迈进7系列,二是特殊的名字意味着TITAN是一个特殊的存在,在GTX 680和HD 7970僵持不下的情况下,TITAN要处于更高的高度,在单卡单芯上是无敌的。与此同时,TITAN的发布价格也水涨船高,达到前所未有的999美元,这个价格已经与采用两颗GK104核心的GTX 690持平,国内上市价格为7999元人民币。

GeForce GTX TITAN的基本规格:
CUDA核心:2688个;
ROP:48个;
核心频率:837MHz;
最大加速频率:993-1006MHz(取决于不同显卡);
显存规格:384bit 6GB GDDR5;
显存频率:1502MHz(等效6.008Gbps);
TDP:250W;
12V外接供电接口:8+6pin;
视频输出:2个Dual-Link DVI,1个HDMI,1个Display Port 1.2;
PCIE接口规范:PCIE 3.0;
官方定价:999美元

Kepler GK110核心架构简介

首先是核心照:


GK110核心同样是台积电28nm工艺制造,核心面积达到了550平方毫米左右,几乎是GK104核心的两倍,晶体管数目也比GK104核心翻了一倍,达到71亿,这在GPU核心上还是史无前例的。再来看看架构图:


GPC
GK110共有5个GPC,每个GPC包含3组SMX和一个Raster引擎,这一点也可以从核心照中的分块反映出来。而GK104则是4个GPC,每个GPC包含两组SMX和一个Raster引擎。因此GK110并不能完全等同于GK104增加GPC或者增加SMX,它们之间的配比还是有改变的。

SMX
GK110的SMX结构和GK104大致相同,但主要计算单元设计却有较大变化。首先前端的Polymorph 2.0引擎设计和GK104相比没什么变化,纹理单元(TMU)也依然是每个SMX有16个,每个SMX也包含了64KB的L1缓存。每个SMX中包含192个CUDA核心和32个加载/存储单元(LD/ST)、32个特殊功能单元(SFU)这些也都和GK104一样。不同的是,GK110每个SMX中还加入了64个双精度浮点单元(DP Unit),以及48KB的只读数据缓存,这些增加的部分都是为了提升双精度浮点计算能力。因此,Tesla K20X的双精度浮点计算能力可达1.31TFlops,是单精度浮点计算能力的1/3,GeForce GTX TITAN因为核心频率的关系还可能会再高一些。而GK104每个SMX里只有8个FP64 CUDA计算核心,所以它的双精度浮点计算能力仅有单精度浮点的1/24,大约为131.8GFlops,仅为GK110的1/10和GF110的1/5,这也是我们说GK104主要是游戏显卡而不适合做计算显卡的原因。


不过无论是Tesla K20X也好还是GeForce GTX TITAN也好,NVIDIA都屏蔽了一组SMX,只留下14组SMX,对应2688个CUDA单元。至于原因,无论是为了控制良品率、控制功耗还是其它什么别的设计需求,都仅限于各家之言,NVIDIA都没有就此给出官方说明。

后端
除此之外GK110核心还包含了6个64bit的显存控制器,以及对应的6组ROP,每组8个,和1.5MB的L2缓存,这些都是GK104的1.5倍,只是增加了规模,结构并无明显变化。

GeForce GTX TITAN新技术:通用计算特性

Dynamic Parallelism和Grid Management Unit
简单的说Dynamic Parallelism(动态并行)就是可以让GPU自己像一个主机端线程那样根据需要启动kernel,在自己的硬件上执行,而无需通过与CPU端通讯。动态并行通过Grid Management Unit管理、调度Kernel启动,避免了多次“返回CPU——再由CPU启动kernel”的繁琐过程,极大地简化了GPU编程,并且适用于加速一大类常见的算法。具体信息及grids、kernel、stream等CUDA相关术语的定义,可参考动态并行官方说明文档


以下通过CUDA 5.0 SDK中的一个简单实例来说明动态并行的运行。CPU首先通过两个线程启动2个kernel,运行cdp_kernel()函数,它是一个递归函数。然后GPU通过动态并行自己启动kernel实现递归,总共进行3次(max_depth=2)递归之后,程序执行完毕。因此GPU总共自己运行了8次这个函数,最后结果返回到CPU,输出打印我们看到的下面这个截图。


Hyper-Q
从Fermi开始,GPU开始拥有Kernel并行能力,同一stream串行执行,不同stream间顺序无要求,可以并行执行。例如NVIDIA官方Hyper-Q说明文档里举的例子,以下有3个stream,每个stream里有ABC三个Kernel。其中每个stream中ABC三个Kernel是互相依赖的,要串行执行,而每个stream之间是独立的,可以并行执行,且三个并行stream之间执行优先级没有先后。这里我引用说明文档里的图示,稍作修改,体现并行执行,Fermi的执行模式如下:


由于Fermi的整个队列只是由Work Distributor判断相邻两个Kernel的依赖关系,从而判断串行或并行执行,因此上述例子中可以同时并行执行的只是相邻的两个Kernel(A2和C1、A1和C0)。而我们知道不同stream中的B2、B1和B0这些都是独立的,可以并行执行,但实际上它们之间却是串行执行了,所以这样执行效率并不高。

而Kepler GK110则加入了Grid Management Unit,它可以把多个标记了归属stream的grids放入其中缓冲,从而智能地判断这些grids之间的依赖关系,并生成多个硬件的工作队列,以避免出现Fermi那样的不相邻kernel不能进行依赖性判断的问题,这样可以在硬件资源许可的情况下,尽可能地并行执行grids。Hyper-Q的“Q”我认为就是队列(Queue)的意思。GK110的执行模式就变成了这样:


简单来说,一个stream的执行流程是CPU(Host)复制要计算的数据到GPU(Device)->发射/启动kernel ->GPU将计算结果返回CPU,简单来说就是copy->kernel->copy的串行执行过程。所以不同的stream并行执行,就会出现copy和kernel并行,以及kernel和kernel的并行情况。

以往CUDA开发者在对copy和kernel并行任务执行代码的逻辑优化中,GT200和Fermi由于硬件设计的不同,不同的代码写法会表现出不同的执行效率,针对Fermi优化的执行代码到了GT200上执行效率会比较差。详细信息可参考一篇来自CUDA开发者地带的博文:How to Overlap Data Transfers in CUDA C/C++。而从Fermi开始就支持计算重叠(kernel与kernel并行),原本适用于GT200的执行代码可能还会有进一步优化空间。

有了Hyper-Q之后,由于在GK110上有Grid Management Unit的缓冲和调度,针对上述两种情况,无论是何种代码写法都会直接达到最佳执行效率。Hyper-Q特性需要CUDA SM 3.5的支持,也就是只有GK110支持,它的意义除了提高GPU利用率之外,还可以方便开发者,无需再针对不同的GPU架构进行代码优化,这是GK110架构的一个优点。

在CUDA SDK 5.0中也有一个关于Hyper-Q的简单实例,启动32个并行stream,预计如果这32个stream串行执行,需要0.640秒,如果并行执行,理论上需要的时间只有1/32也就是0.020秒,但实际上执行了0.053秒。当然了理想状态和实际还是有一定差距的,但这也足以体现出并行执行的速度优势了。


GPUDirect
GPUDirect可以直接允许周边设备,如网络介质、存储介质等直接访问GPU的显存,而不需要通过CPU和内存作缓冲,这就消除了CPU方面的延迟和带宽瓶颈,也可以让两台独立的电脑的GPU和GPU之间通过网络进行点对点的数据传输。不过这个特性只有Tesla计算卡才支持,TITAN就无缘了。


由于我不是CUDA软件开发人员,对通用计算工作流程了解也有限,在这里谨以对GK110新特性的个人理解解释给大家看看,如想进一步了解CUDA编程相关知识,可访问NVIDIA CUDA Zone大陆官方论坛

综合来看,GK110从Tesla K20X转变为GeForce GTX TITAN并没有过多阉割Kepler计算显卡新增的硬件功能及特色技术,并且这些特色技术也使得CUDA计算版本升级到3.5,与不支持这些特性的GK104使用的3.0计算版本区别开。然而TITAN作为非专业显卡,显存的ECC就没有了,核心频率也进一步提升并带有Boost功能,因此也换来了更高的显存频率(5.2GHz提升到6GHz)及显存带宽。

GeForce GTX TITAN新技术:GPU Boost 2.0

NVIDIA自从Kepler之后增加了Boost机制,允许GPU核心频率在功耗和温度允许的条件下自动超频一定的空间,以提升性能。从这近一年的Kepler显卡Boost的情况来看,我们发现有一些显卡可以全程运行最大Boost频率,有一些显卡则不能,具体依GPU核心和显卡BIOS设置情况而改变,甚至同一显卡品牌型号也会因为默认VID不同而出现不同的最大Boost频率,情况极其复杂。GPU Boost 2.0就更复杂了,除了之前的Power Target功率限制之外,新的GPU Boost 2.0还加入了Temp Target,从它的名字我们就知道是温度限制,默认是80度。其实GPU Boost 1.0也会在温度高过70度就开始降低Boost频率,只是这个值不可调而已。现在GTX TITAN的BIOS允许你在软件中把Temp Target最高调到94度,这样就可以增大全程跑最大Boost频率的机会。


此外,GPU Boost 2.0还允许你在软件中提高一定幅度的电压,TITAN默认最大Boost电压是1.162V,在软件中允许你把电压提高到1.200V,这样Boost频率就提高了额外的两档,分别是1.187V 1006MHz和1.2V 1019MHz,对默认情况下性能进一步提升是有帮助的。这个加压方式其实只是扩展Boost的范围,并不会对其它档位的电压产生影响,仅在Boost达到最大幅度(默认频率即是超过993MHz)的时候才会被真正加压。不过这部分加压范围也是在NVIDIA官方保证之外的,也就是说NVIDIA不会对因此造成的硬件损坏负责(当然了加这点电压大多数情况下是对硬件是没多大影响的)。


在Afterburner 3.00 beta5中,Power Limit和Temp Limit可同步调节,也可单独调节其中一个,判断条件也可选择功耗优先还是温度优先,不过通过我们测试的情况来看即使选择了温度优先,功耗还是不能超过100%,原因不知。TITAN的BIOS开放的功耗限制仅有106%,按照250W的TDP设计来算,这6%仅仅是15W的额外功耗空间,这对于我们超频来说无疑是一个阻碍。Temp Limit虽然能调到95度,但应用之后实际上只是94度,也就是BIOS中允许的最大上限。


超频方面TITAN和GTX 680是类似的,都是使用Offset的方式超频,超频之后Boost同样生效,大家可参考之前测试GTX 680时对Boost超频的说明部分,这里不再介绍。

GeForce GTX TITAN新技术:刷新率超频

在十年前CRT显示器时代,我们经常想办法提高刷新率,尤其是提高到85-100Hz以上,这样看起来显示器就“不闪烁”。但现在的液晶显示器、LED显示器则不一样了,现在我们使用的显示器通常都是60Hz的刷新率,无需更改也不会闪烁。但60Hz的刷新率也带来了一个问题,那就是在开启垂直同步(为了画面没有撕裂感)之后游戏会被限制在60FPS,也就是说每一帧的画面都会有大约16ms的延迟,然而这对一些需要高反应速度的游戏玩家来说这并不够。之前Lucid给出一个叫做Virtu MVP的解决方案,可以在不限制游戏的帧数同时开启垂直同步,在一些游戏里效果还不错,但Lucid毕竟是第三方解决方案,无法迅速支持最新的游戏和驱动程序。现在NVIDIA给出了另外一个解决方案,那就是超频显示器的刷新率。这样在保持垂直同步开启的同时,由于刷新率和帧数同步提高,画面延迟感就会减少。


NVIDIA声称这种超频方式不会损坏你的显示器、显卡或者其它硬件,它是100%安全的。但NVIDIA并没有在驱动里或者以第三方软件提供这种超频功能,用户只能使用第三方软件来开启,不过Afterburner 3.0 beta5还不支持刷新率超频。但根据我目前得到的消息来看,许多显示器刷新率可超频幅度都不是很大只有大约10-30%的水平,能达到PPT里宣传的80Hz的并不多,并且这项技术对于窗口化的游戏是无效的,因此我认为超频显示器这个功能的宣传性大于实用性。但对于某些有120Hz刷新率的显示器来说,如果某个游戏的fps在60-120之间,你又不想通过垂直同步限制在60FPS,造成画面延迟,那这个技术或许能派上用场。不过即使超频失败也只会出现丢失视频信号之类的问题,过一会就可以自己恢复默认。

GeForce GTX TITAN显卡介绍

目前许多AIC厂商都推出了GeForce GTX TITAN显卡,它们都采用公版设计,所以东西都是一样的。本次我们拿到的是微星的GTX TITAN显卡,它的外观也和公版TITAN完全一样,甚至散热器上连微星自家的贴纸都没有。


GeForce GTX TITAN的规格前面已经介绍过,它支持Direct X 11.0,拥有2688个CUDA核心,搭配384bit/6GB的GDDR5显存,默认频率为837/1502MHz,平均Boost频率为876MHz,最大Boost频率为993MHz。


GTX TITAN的TDP为250W,所以使用8+6Pin供电,供电排列方式也变回以往的并排形式了,而不是像GTX 680那样奇怪的两个接口对着的方式。


两个SLI金手指,可组4路SLI。不过在TITAN官方宣传文档里似乎只提到只能支持3路,原因不明。


视频输出接口跟GTX 680是一样的,从左到右依次是一个Display Port 1.2a、一个HDMI、两个Dual-Link DVI。


公版GeForce GTX TITAN依然保持双槽占用。这也是在ATX主板上组建4路SLI的必要条件。顶部的GEFORCE GTX通电后会发出绿色的灯光。


GeForce GTX TITAN更多细节图赏

以往大多数公版显卡涡轮散热外边都是一个塑料罩子,这次TITAN的散热器外壳使用了跟GTX 690类似的材质,表面采用磨砂处理,非常有质感。

显卡向着机箱内部的一侧可以看到散热鳍片,但它基本上是起装饰作用,并不直接参与热传递。除了装饰之外,它还可以让涡轮风扇从这边进风,根据我们的实测,这个地方并不会排出热风,因此无需担心机箱内部环境受这个开口影响而温度升高。


显卡背面除了显存和核心附近的滤波电容及视频接口附近的ESD芯片之外并无太多其它元件。


显存为正反面各12颗三星K4G20325FD-FC03 0.3ns GDDR5显存,单颗规格32bit/256MB,共24颗以2rank的方式组成384bit/6GB的规格。


顶部的LOGO灯特写:


背部IO挡板一侧的TITAN字样


机箱内部一侧的NVIDIA LOGO


7cm的涡轮风扇,中间风扇轴采用拉丝工艺圆锥形,非常漂亮。


固定TITAN散热器的大多数是这种螺丝,需要内六角螺丝刀才能拆开。


和其它微星显卡一样,从去年下半年开始背面螺丝贴了易碎贴,分明就是不让你拆卡。对于一般用户来说没所谓,他们也不会去拆的,对于我们来说则更没所谓了,因为我们是一定会拆的。


GeForce GTX TITAN拆解与散热介绍

用十字螺丝刀和T6六角梅花螺丝刀拧开显卡背后及背部IO接口上所有固定散热器的一共22颗螺丝,我们才能把散热器卸下来。这时候已经可以看到显卡PCB全貌了,我们放着它待会再说,先接着拆散热器。


从散热器上我们可以看到显存、MOSFET都贴了导热贴,直接把热量传递到一体式散热片上。风扇电源和显卡顶部LOGO灯分别供电,在显卡上有对应的电源接口。


想要把散热器全部分解,我们还要拆剩下的26颗螺丝。这其中有相当一部分是需要内六角螺丝刀,也有需要小号十字螺丝刀的。全部拆开之后,就是这个样子:


首先看一体式散热片,主要是给显存、供电MOSFET散热,同时起到固定整个散热器和PCB的作用。右侧的散热鳍片是拆不下来的,刚才已经说过了,这块鳍片并不直接参与导热,而是起进风和装饰两个作用。


这是给核心直接散热的均热板+鳍片,与GTX 680的三热管铜底散热器不一样,TITAN使用了均热板,并且整体镀镍。底座并不算很平整,但问题也不大了。


这些部分,就是组成散热器的框架,材质我不确定是不是铝的,但至少应该是某种又硬又脆又轻巧的金属。表面应该是做了电镀处理再加上磨砂工艺,非常有质感。中间一块是透明的亚克力面板,可透过它看到核心散热鳍片。虽然散热器外壳大部分都由金属构成,但TITAN显卡重量并没有比其它显卡重太多。


这个LED灯也是可以单独拆卸的,基本上是使用双面胶和黑色胶布贴合在LED灯的PCB和散热器框架之间,这个由于难以还原,我们就不拆了。


涡轮风扇背面并没有名牌,我们不知道是哪家代工的。不过这个风扇做工还不错,轴心也有一定的份量。电源接口采用4Pin,支持PWM温控调速。


GeForce GTX TITAN PCB与供电介绍

以下是GeForce GTX TITAN的PCB全貌。它的长度为26.7cm,比GTX 680长,但比GTX 690短。整个PCB设计还算中规中矩,并没有像GTX 680那样出现横排供电、输出滤波电容在右下角横排的奇怪设计。在NVIDIA历来的公版PCB设计上来讲,TITAN的PCB做工应该可以算中上级别水平。


供电全貌:TITAN采用6+2相供电设计,其中核心部分采用6相供电,由安森美NCP4206控制,它是一颗模拟PWM,每相供电都使用了DrMOS,我们待会再详细介绍。显存供电由一颗Richtek的PWM控制器控制,每相供电使用一颗安森美NTMFD4901NF PowerStage,它封装了上下桥的MOSFET,可别把它误认为是同一型号的上下桥了。除此之外还有与GTX 680相比有改变的功耗监控电路,我们也放在下文介绍。另外我们还可以看到PCB右侧有一个8Pin供电的空焊位,其实GTX 680也同样有一个6Pin空焊位,至于以后会不会补上,我觉得大家就没必要操这中南海的心了。


核心每相供电采用一颗Vishay SIC780CD DrMOS,集成了上下桥MOSFET和Driver芯片,是之前我们见过的SIC769CD的升级版。


每颗SIC780CD最大可通过50A电流,在输出电压为1.2V时,通过电流接近10A时可达到最大转换率92%以上,在通过35A电流时损耗在8W左右,是很好的元件。以TITAN 250W的TDP设计来算,核心功耗虽然达不到250W,但我们按多的算。每相供电大约需要承担40W左右的功耗,以核心电压1.1V来计算,那么每相DrMOS还是需要承担35A左右的电流的,这负载也不小了。


功耗监控芯片包括3颗5M0电阻和一颗德州仪器的INA 3221监控芯片,当12V输入电压通过这三颗阻值为5毫欧的小电阻时会形成一个压降,INA 3221正好能监测3路电压,通过监控这个压降就可以得到通过这个电阻的电流,把三路电流加起来总和就是整张显卡的12V输入电流,进而得到功耗,原理和我们测试CPU功耗使用的分流计是类似的。INA 3221监控芯片取代了在GTX 680上的三颗INA219监控芯片,以节约PCB空间。


测试平台及测试方法介绍

测试平台:
CPU:Intel Core i7-3960X OC 4.5GHz
主板:MSI BIGBANG XPower II(X79)
内存:Corsair CMD16GX3M4A2666C11 4Gx4@ DDR3-2400 CL10
显卡:
NVIDIA GeForce GTX TITAN
MSI N680GTX Lightning
MSI R7970 Lightning
硬盘:Plextor PX-256M5Pro
电源:Enermax Revolution 85+ 1050W
散热器:Corsair H100i
操作系统:Windows 8 Pro
驱动程序:
Forceware 314.07(GTX 680)
Forceware 314.09(TITAN)
Catalyst 13.2 beta 7(HD 7970)

GPU-Z识别GTX TITAN的信息:目前GPU-Z 0.6.7尚无法完整识别TITAN的规格信息。另外,在X79主板上,TITAN的PCIE 3.0支持继续被屏蔽,想破解的话请参考这里


GPU-Z识别的N680GTX Lightning基本信息:这里我们使用LN2 BIOS,禁用Boost,全程运行在1202MHz的频率。


GPU-Z识别的R7970 Lightning信息:同样使用LN2 BIOS,禁用相位控制,默认频率为公版的925/1375MHz,手动超到R7970 Lightning默认的1070/1400MHz。R7970 Lightning只能用miniDP转DP输出2560x1440分辨率,两个DVI最大只能1080P分辨率,这点要注意一下,其它HD7970无此问题。


测试游戏列表:之前我们的显卡测试方案中许多游戏都已经老旧,不足以反映现在高端显卡的性能差异,因此我们更换了许多游戏和Benchmark,以迎合新显卡的情况。另外,针对高端游戏玩家的需求,我们这次为大部分游戏加入2560x1440分辨率以及部分游戏的8xMSAA测试。为了和A卡公平对比,我们本次尽量使用原始的MSAA,避免使用CSAA、TXAA等两家算法不同、执行效率不同或不支持的抗锯齿模式。

理论性能测试:测试项目为大部分玩家选择的衡量显卡性能标杆的软件,例如3DMark等。为了考察Tessellation及复杂材质细节的处理能力,我们还加入了Unigine的两款Benchmark:Heaven和Valley。

游戏Benchmark:游戏Benchmark由游戏开发商预置或者第三方脚本程序实现,可以保证基本相同的运行场景,公平衡量显卡的3D性能。和理论测试性能一样,这些Benchmark都是可以横向对比的。

游戏场景测试:实际玩游戏途中截取某一段尽可能相同的场景进行测试,能涵盖较多的主流高端游戏,比较具有参考性。这种测试方法通常使用Fraps等工具录一段场景的平均FPS,在相同场景下误差并不会很大,但我无法保证我选取的场景一定具有代表性,并且不一定是整个游戏画面最复杂、帧数最低的部分,而且与别人的测试同一游戏选择的场景未必相同,因而没有横向对比性。


3D应用测试结果及分析

本次我们测试TITAN的默认设置,以及TDP限制调到106%,温度限制调到94度,并增加37mV电压提高Boost频率之后的性能变化情况。另外我们还找来了两张之前评测过的微星闪电旗舰显卡N680GTX Lightning和R7970 Lightning,它们在接近一年的驱动优化之后,性能也各自有了提升,所以我们重新测试这两张卡的数据。

首先看测试结果:


从测试结果来看,TITAN毫无悬念全线领先GTX 680和HD 7970,其中在50FPS以下的游戏中表现较明显,100FPS以上的游戏则领先幅度缩小。在调高37mV电压、放宽TDP上限和温度上限之后,显卡有了进一步的Boost空间,性能还会再有小幅度的提升。在高分辨率下,GTX 680开始在一些项目中表现出显存不够,导致性能被3GB显存的HD 7970赶上或者反超,不过总体来说两者还是处于同一水平。

我们也看到,一些游戏比如Crysis 3、巫师2等,在2560x1440分辨率下无论是GTX 680还是HD 7970,甚至是TITAN,都不能达到30FPS的基本流畅程度,说明这些游戏还是很吃显卡的,是未来GPU性能发展挑战的标杆。同样道理新版3DMark Fire Strike Extreme模式也是如此。

通用计算方面,TITAN开了双精度浮点对ComputeMark无影响,说明它没有用到双精度浮点计算,性能下降同3D应用,都是功耗变大Boost降低导致的,后边我们会有说明。而Sandra中双精度浮点计算性能在开启双精度浮点单元后有了大幅度提升。

功耗方面,TITAN在运行Furmark的时候Boost被限制,甚至出现降频,所以整机功耗被限制在420W左右,这个情况我们后边会详细分析。而R7970 Lightning使用了LN2解锁BIOS,功耗不受限制,所以整机功耗达到非常夸张的557W。

来看加权综合对比。首先是总体性能和功耗对比,以N680GTX Lightning为参考,TITAN在默认情况下大约领先它36%的性能,领先R7970 Lightning也有30.5%,TITAN在调高37mV电压提高Boost之后,性能又有大约3%的提升。功耗方面,这次我们调高了3DMark功耗的权重,降低了Furmark的权重,好在三张显卡在3DMark时功耗差距并不大,这基本也可以代表游戏的最高功耗。我们看到,TITAN的能耗比还是可以的,功耗并不比GTX 680大太多,在我们的X79平台上整机功耗也没有超过500W,如果在Z77平台上,整机功耗应该还会再低100W以上。


再看按分辨率区分的加权性能对比,这次我们分别统计1920x1080和2560x1440两个分辨率。在1920x1080分辨率下,R7970 Lightning领先N680GTX Lightning有4%,TITAN领先N680GTX Lightning大约35%,而换到2560x1440分辨率之后,两者相对GTX 680的领先幅度都有所扩大,R7970 Lightning领先N680GTX Lightning幅度上升到5.9%,TITAN领先N680GTX Lightning幅度上升到39%。在给TITAN增加37mV电压提高Boost之后,可领先N680GTX Lightning有39-44%,如果换做公版GTX 680的话,恐怕能达到接近50%的领先幅度了。


CUDA应用:视频转码

我们使用MediaEspresso 6.5转换《机械师》X264编码1080P影片为iPhone支持的格式,这时候TITAN可利用CUDA进行硬件加速,转码速度会比CPU快很多。

使用GTX TITAN转码,中途使用GPU-Z可以看到Video Engine满载,CPU负载很低。


最终用时11分59秒完成转码。


使用4.5G的Core i7-3960X转码,MediaEspresso可使用6个线程,因此CPU负载接近50%,而GPU处于待机状态。


最终转码用时将近50分钟,是GPU转码的四倍时间。


双精度浮点单元对计算性能及3D性能的影响

TITAN为了减少功耗对性能的影响,在默认情况下896个双精度浮点单元只有1/8是开启的,这样双精度计算能力和GK104一样只是单精度的1/24,双精度计算性能不会完全发挥。如要发挥双精度浮点运算的最大效能,只要在驱动控制面板-管理3D设置-CUDA-双精度里把GeForce GTX TITAN勾上就可以了。


GPCBenchmark是一个G80时代开始使用OpenCL进行GPU运算的测试软件,虽然这个软件已经比较老了,但在今天依然对衡量TITAN在驱动里开启双精度浮点功能之后,双精度浮点计算性能变化有一定的意义。首先是未开启双精度浮点单元的计算结果:


开启双精度浮点单元后,四项测试的结果都有4到6倍的增长。


在Sisoftware Sandra 2013双精度着色性能测试中,TITAN在未开启双精度浮点单元之前仅有大约330MP/s的速度,开启之后性能提升近6倍达到1872MP/s,而HD 7970并没有限制双精度浮点的发挥,也有1644MP/s,GTX 680的双精度浮点计算就比较惨了,只有230MP/s。


在开启双精度浮点之后,对3D性能也是有一定影响的,只可惜是负面影响。在开启双精度浮点之前,3DMark FireStrike拿到9154分。


开启双精度浮点之后,3DMark FS掉到8029分。我们从分数子项可以看出两个显卡测试场景和综合测试场景帧数均有下降。这是由于双精度浮点单元占了很大的功耗,Boost必须降频才能满足100%以内的TDP限制,因此可以简单认为分数降低是因为核心频率降低引起的,因为双精度浮点计算对3D性能没有任何帮助。


温度、功耗、噪音测试

在室温23度的情况下,我们运行Furmark测试,GTX TITAN的最高温度达到82度,我们发现TITAN在运行Furmark时候出现了降频降压的现象,并且这时候TDP依然达到接近100%,说明250W的功耗限制生效,TITAN只能通过Boost机制降频降压才能满足这个限制条件。这种现象在之前一些TDP限制比较紧的Kepler显卡上也见到过,并不稀罕。


我们把TDP限制放宽到106%,温度上限调到94度,并在增加37mV电压的情况下运行Furmark,情况也是差不多的,不过TDP限制106%似乎未生效,功耗还是被限制在100%的TDP以下。不过从前边3D游戏测试的功耗表现来看,表现出比Furmark更高的整机功耗,除了CPU功耗变化影响之外,这也说明在运行游戏的时候大家并不用担心降频,只不过全程跑最大Boost频率的可能性也不大了。


这时候风扇噪音大约为65分贝,如果距离1米左右大概是50-55分贝,感官表现为有一点噪音,但尚可接受。


开启双精度浮点功能再烧Furmark,这时候降频更加严重,但VID下限提高到1.037V(估计是为了保证那些双精度单元稳定),由于TDP Limit的存在,温度和整机功耗都是差不多的,烧机温度低了是室温变化的结果。


GeForce GTX TITAN超频测试

通过调试,我们在加37mV电压、106%的TDP限制和94度的温度限制条件下,最高可以达成+184MHz核心频率、+656(328)MHz显存频率的提升,这时候显卡最大Boost核心频率达到1202MHz,显存频率为1830MHz(等效7.32G QDR)。

这也使得GTX TITAN在运行3DMark FSX场景中的分数提升至5409分,比默认的4607分提升17.4%,对于一张有71亿晶体管、并且TDP非常紧的显卡来说,这个提升幅度还算可观。


超频之后3DMark FireStrike普通模式也拿到10620分,比默认的9154分提升16%。


3DMark 11 X模式拿到X5900分,比默认的4939分提升19.46%。


总结

总的来说,GeForce GTX TITAN把Kepler架构火力全开的表现展现得淋漓尽致。GK110核心并不完全是一张游戏显卡,因此以GK104两倍的晶体管,接近两倍的核心面积,3D性能表现只领先公版GTX 680在40%左右的情况,并不能代表其资源利用不充分,而且这也已经达到了一个对于单GPU显卡不可企及的高度。本应定位于旗舰的它,现在却处在一个孤独求败的位置,而AMD也已经放话拒绝承认TITAN是一张游戏显卡,对于今年无法推出HD 8000系列的AMD来说,说这种话也许只是逃避而已。

GeForce GTX TITAN的能耗比控制也比较不错,不过这也归功于它那250W的TDP限制,如果功耗、温度限制全部解放,不知道TITAN的功耗会有多少。好在这种限制在大多数时候并没有成为抑制GPU性能发挥的因素,只是在开启双精度浮点之后,性能才出现比较明显的下降。

从通用计算方面来讲,GK110的Hyper-Q特性带来的便利是开发者的福音,今后无需再为每个GPU架构优化代码,减轻程序员负担,进而降低CUDA编程的技术门槛,我们也希望借此机会今后能看到更多的CUDA应用。

不过,TITAN的价格也高高在上,上市价格达到999美元,国内也卖到7999元人民币,这在PC消费级单GPU显卡上还是前所未有的。因此你想体验这张目前没有对手的显卡,不得不付出比以往更大的代价,而许多发烧友更是已经奔着拿它组多路SLI去了。因此对于这种性能顶级价格也不是谁都承受得起的显卡,我的意见就是大家理性按照自己的消费能力来决定吧。

PCEVA综合评价:Kepler火力全开性能无敌。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
cnzyan 发表于 2013-3-4 20:00 发自PCEVA移动客户端 | 只看该作者
沙发?
来自:PC绝对领域 Windows Phone 7 客户端
3#
111alan 发表于 2013-3-4 20:18 | 只看该作者
散热器设计一般...
4#
wsy2220 发表于 2013-3-4 20:24 | 只看该作者
本帖最后由 wsy2220 于 2013-3-4 21:22 编辑

太贵了啊....

3年以后如果降到可以承受的价位再弄一块试试

PS.r总什么时候玩上big bang了啊,出个评测呗
5#
jyagsy 发表于 2013-3-4 20:31 | 只看该作者
性能很牛x 价格很坑爹的 真680 我等只能观望
6#
allegg 发表于 2013-3-4 20:35 | 只看该作者
顶R大~评测很详细~PS:卡是好卡但公版散热真心无爱
7#
大D来了 发表于 2013-3-4 20:38 | 只看该作者
前排占位
8#
Chervona 发表于 2013-3-4 20:44 | 只看该作者
看完了,前排留名
9#
bfkx 发表于 2013-3-4 20:57 | 只看该作者
Titan的确是卡皇
10#
tanlwowo 发表于 2013-3-4 21:06 | 只看该作者
今年AMD压力不小啊,希望多降价大家都得实惠。
11#
roy.xiang 发表于 2013-3-4 21:21 | 只看该作者
已经开始降价了,跪求多降点
12#
jyst 发表于 2013-3-4 22:00 | 只看该作者
看看口袋里的票子,于是决定当titan是不存在的好了
13#
qin0008 发表于 2013-3-4 22:04 | 只看该作者
R 大辛苦。。神级评测。。。。。好多不懂。。。。。。。
14#
有点小烦 发表于 2013-3-4 22:05 | 只看该作者
哎哟呵!最近论坛各版主管理都诗兴大发了?~
老规矩,先顶再看~
15#
zhubo88597171 发表于 2013-3-4 22:13 | 只看该作者
前排看来是占不上了,好贴必须要顶起
16#
陈佳鑫陈帆 发表于 2013-3-4 22:42 发自PCEVA移动客户端 | 只看该作者
前排占座,只看r大测评。
17#
efgking01 发表于 2013-3-4 22:48 | 只看该作者
本帖最后由 efgking01 于 2013-3-4 22:49 编辑

非公4G版680好少,今年2G的估计会被很多游戏爆显存了
18#
hyenax1950xtx 发表于 2013-3-4 22:48 | 只看该作者
没得测到泰坦
19#
amx004 发表于 2013-3-4 22:50 | 只看该作者
不错, 突然很期待A家下一代的表现, 不求超越titan, 只求把价格拉下来
20#
hjhham 发表于 2013-3-4 23:12 | 只看该作者
3999我就承认它,不然我还是倾向680/7970
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部