PCEVA,PC绝对领域,探寻真正的电脑知识
开启左侧

谈谈推土机在WIN7与WIN8下的性能差异

  [复制链接]
royalk 发表于 2012-7-12 21:07 | 显示全部楼层 |阅读模式
点击数:30923|回复数:150
开头先插点题外话,上次在做了Intel平台Offset超频教程之后,本打算接着做技嘉Z68主板G1.Sniper 2支持IVB超频BIOS在无防掉压下利用offset加压来抵消掉压的进一步测试,无奈我又发现这货现在不仅没防掉压,而且手动设置电压还无效。虽然设置电压无效从理论上来讲也不影响我们做测试(毕竟这篇里我打算说的也只是VID变化和Vdroop的互相补偿),但我还是想把这篇往后推一下,等技嘉把电压调整和防掉压做好,能拿得出手了再来讲。

这里先放两张图,一张是技嘉的Z68新UEFI界面启动画面,个人感觉是比较帅。


第二张图是使用G1.Sniper 2主板与Core i7 3770K超频到4.5G、内存超到DDR3-2666的截图,稳定性未测。



如果你不关心推土机,这帖子对你来说已经结束了。如果你关心推土机,或者想看看热闹,请继续往下看——

回到今天的话题。前两天微软在WPC上透露Windows 8 RTM版本将在8月第一周发布,也就是还有不到一个月的时间大家就能用上WIN8的正式版了。那么有个老话题就应该被挖出来谈谈了:推土机在WIN7下因线程调配问题导致的性能低下,在WIN8下会怎样呢?是不是推土机不给力完全可以归咎于WIN7的线程调配问题?这里我装了一个Windows 8 RP版本,并选取了一些测试软件,来对比一下推土机在Windows 7和Windows 8下性能表现是否有差异。


之前那张Rev 1.1的技嘉990FXA-UD7还回去了,现在又弄来了一张Rev 1.0的,没法开启防掉压,所以超4.5G难度很大。下面所有测试都以4.2G来跑。

测试平台:
CPU:AMD FX-8120 OC 4.2GHz
主板:Gigabyte 990FXA-UD7 Rev 1.0
内存:Team Xtreem LV 2133 OC DDR3-2400 10-10-11-24-1T 1.5V
显卡:MSI N680GTX Lightning
硬盘:美光m4 128G+浦科特 PX-128M2P
电源:安耐美 冰核 Revolution 85+ 1050W
散热器:九州风神 冰阵600
操作系统:Windows 7 Ultimate/Windows 8 Release Preview



在Win8下,CPU-Z还是把推土机识别成8核心8线程,但是在Win8的任务管理器中,系统是把推土机识别成4核心8线程了。


---------------SuperPi--------------

先看最简单的SuperPi,单线程整数运算。在WIN7下,4.2G的推土机跑完1M耗时20.779秒,真是渣渣效能,比默认频率的i7 3770K还慢了一倍,比自家K10同频也慢了20%以上。

▲WIN7 SuperPi 1M

在WIN8下,成绩有小幅度提升,耗时20.498秒。

▲WIN8 SuperPi 1M

跑1M就有差不多0.3秒的提升,是不是误差呢?我们接着跑个32M来验证一下。在WIN7下,32M使用19分47.646秒完成。

▲WIN7 SuperPi 32M

在WIN8下,快了差不多40秒,仅用19分08.079秒完成。

▲WIN8 SuperPi 32M

小结:推土机每个核心只有2个整数计算单元是硬伤,因此单线程的SuperPi是不用指望能快很多了,但是WIN8比WIN7下能有一定的提升,也让我们看到了一点希望,接着往下看别的测试。

---------------3DMark 11--------------

我们分别跑3DMark 11的P模式和X模式,其中前者画质较低,受CPU影响较大,后者则基本取决于GPU。NVIDIA的显卡驱动现在已经可以完美支持WIN8了,并且和Vista、WIN7通用,这里显卡驱动统一使用ForceWare 304.79 beta。

在WIN7下,N680GTX Lightning分别拿到P9520和X3558分。另外我们注意一下P模式的图形总分和物理总分,它们分别代表着GPU和CPU的成绩。

▲WIN7 3DMark 11 P模式


▲WIN7 3DMark 11 X模式

再来看WIN8下,同样的显卡及同样的驱动,分别拿到P9421分和X3536分。

▲WIN8 3DMark 11 P模式


▲WIN8 3DMark 11 X模式

小结:在3DMark 11的测试环节中,不管是P模式还是X模式,WIN8下的得分比WIN7还少了点,在GPU分数(图形分数)子项中两者表现差不多,误差不会超过1%,但是CPU分数(物理分数)无论是P模式还是X模式下,WIN8的得分都比WIN7少了两百,以致于拉低了总分。3DMark 11的物理分数属于多线程浮点运算,看来如我之前的推断一样,在可以用满八个线程的应用下,线程调配优化与否都没多大区别,甚至还出现了可能是争抢浮点资源的情况,导致WIN8下成绩还不如WIN7。

---------------AIDA64内存及缓存测试--------------

AMD的内存性能就是个悲剧,这里同样由于防掉压问题我只能把CPU-NB频率跑在2400MHz,内存也跑在同一个频率上。在WIN8下如果只是线程调配优化,对内存性能应该没太大影响,下面我们来测试看看是不是这样。

Win7下的AIDA64内存及缓存成绩:

▲WIN7 AIDA64内存及缓存测试

Win8下的AIDA64内存及缓存成绩:

▲WIN8 AIDA64内存及缓存测试

小结:AIDA64内存测试对CPU来说应该属于单线程浮点运算,按理说应该不会受到线程调配的影响。对比WIN7和WIN8下的内存测试成绩,还是WIN8下要高了那么一点点,但是WIN8似乎对缓存策略也有所改变,也许跟这个也有一定关系。

---------------CineBench R11.5--------------

CineBench是一个使用CPU渲染3D画面的程序,典型的多线程浮点运算,当然也可以运行单线程,这里我们单线程和多线程都运行一下。

WIN7下,单线程1.04分,多线程6.90分。

▲WIN7 CineBench R11.5测试

WIN8下,单线程1.03分,多线程6.69分。

▲WIN8 CineBench R11.5测试

小结:Cinebench也是多线程浮点运算,出现了类似3DMark 11物理分的情况,WIN8下的成绩反而比WIN7低,看来推土机的多线程浮点运算在WIN8下表现确实较弱。

---------------Winrar 4.20 x64--------------

Winrar在升级到4.20之后改进了内存调用策略,并可以占用到八个线程,64位版本压缩和解压缩速度大幅提升,Winrar自带benchmark,主要考验内存及缓存速度。

WIN7下的测试,注意一下任务管理器的CPU占用率已经可以完全使用八个线程,但是并未满载。之前我们使用3770K测试的时候CPU是可以满载的,并且成绩也可以达到12000分左右。看来这里推土机受到了内存和缓存结构速度瓶颈的影响,核心资源未能充分使用。

▲WIN7 Winrar 4.20 x64测试

在WIN8下,情况也类似,大约80%多的CPU占用率。

▲WIN8 Winrar 4.20 x64测试

小结:推土机的WINRAR性能测试应该是受制于内存速度,因此跟AIDA64类似WIN8和WIN7下差不多。不过能占满8线程之后拿到8000多分的表现,也比以前的版本提升了差不多一倍。


---------------Fritz Chess Benchmark 4.3(国际象棋)--------------

国际象棋(Fritz Chess Benchmark)做的是模拟电脑AI的步法计算和预测,国际象棋不怎么吃内存和缓存,因此推土机的成绩表现不会输得太多。由于它可以指定运行线程数,并且可以通过任务管理器里设置相关性来手动调整使用线程,因此我们选择这款软件来做检验线程分配情况的详细测试。

首先看八线程下的跑分。在WIN7下,4.2G的FX-8120跑出13367千步,大约和4.5G的i5 3570K或默频的i7 3770K相当。

▲WIN7 Fritz Chess Benchmark测试

在WIN8下,成绩变化不大。

▲WIN8 Fritz Chess Benchmark测试

小结:这段测试表明八线程占满的情况下WIN7和WIN8的国际象棋性能差距并不大,但是接下来我们跑四个线程就不一定了。


下面把软件设置改成四个线程,并通过任务管理器手动分配线程到两个模块中的四个核心、三个模块2+1+1模式、四个模块的各一个核心来跑,看看成绩有何差异。

首先是WIN7下,从左到右依次是两个模块、三个模块、四个模块的四个核心跑的。


然后是WIN8下,同样从左到右依次是两、三、四个模块的四核心跑的。


小结:在这一段测试中,我们手动指定线程跑出来的成绩在不同操作系统下也同样差距不大,但是我们也看到在运行四个线程的时候,线程分配应该尽量规避推土机的浮点资源互相抢占现象,也就是尽可能只用一个模块中的一个核心来跑,性能才能最大化。

接下来我们依然跑四个线程,但是给操作系统自动分配线程,看看成绩如何变化。

在WIN7下,得分8336千步,与上边跑出来的三个模块四个线程的分数接近。从宏观上可以认为有一半的时间是出现了同一模块内资源冲突的情况,有一半时间则没有出现,充分表现了WIN7下四个线程的任务负载是平均分配给八个CPU线程的。


再来看看WIN8下,这次情况可不同了,得分9520千步,和四模块四线程的分数基本吻合,因此在用八核心推土机跑四个线程的时候,WIN8下对推土机线程优化的表现非常到位。


小结:四模块的推土机在跑四个线程的时候,WIN8的线程调度优化可以发挥最大的功效,这时候推土机的性能提升幅度可达10%以上。这样看来,推土机平台在WIN8下对CPU敏感但又只能使用四个线程的应用,或许都可以受益于线程调配优化而得到性能提升。


---------------MediaCoder x64 视频转码--------------

以上都是理论测试,下面我们来个比较贴近实际应用的测试:视频转码。我们选用MediaCoder x64,把一部720p X264编码的《星际迷航》转成H264格式,800x480的手机分辨率,用MP4封装。这里说一句闲话,如果你担心你的CPU和内存超频之后过了烧机软件还不够稳定,可以试着做一次转码,有时候过了1小时的Prime 95在转码时候报错也是有可能的。

在WIN7下,耗时1225.9秒,也就是20分钟25.9秒完成转码。

▲WIN7下MediaCoder转码完成时间

在WIN8下,耗时20分02.2秒完成转码,比WIN7稍微快一点点。

▲WIN8下MediaCoder转码完成时间

小结:WIN8可能存在的缓存机制改动使得转码在头半分钟内速度稍微快一点,从一开始就拉开了差距,并保持到最后,依然领先20秒。这种WIN8比WIN7转码快的情况不仅在推土机上出现,在i7 3770K上也是一样的。


---------------总结--------------


通过以上的测试,我们也已经看到在什么情况下推土机+WIN8组合的线程调配会起性能提升作用了——在四个线程的时候,每个模块的一个核心各跑一个线程时,性能可最大化。只不过在WIN7下你需要手动指派线程来做这个优化,到了WIN8就可以自动帮你实现了。当然,哪怕你跑三个线程,五个线程,也是有改善的,只不过没有跑四个线程那么多,而到了八个线程全部占满的时候,WIN7和WIN8就基本没区别了。因此,推土机不给力的主要原因还是在于其自身设计——长流水线导致高频低能,缓存命中率低影响分支预测能力,进而影响执行效率和内存性能,WIN8并不是它的救世主!

总之,我想说的是,WIN8下推土机的性能虽然有改善,但不要期望太多,也不是什么时候都有改善的,而是有条件的。对于一般的PC用户而言,如果不能从本质上提升IPC(单线程运算能力),推土机还是不合适的选择。OK,今天就说到这,技嘉的Z68超频IVB的文章我们先无限期搁置,等待技嘉改好BIOS,下一期我们先来谈谈以i7 3770为代表的非K系CPU超频方式和K系有何区别。


最后,汇总一下本次测试的成绩,红框里表示更好的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

参与人数 3活跃度 +75 收起 理由
kobe327292007 + 20 学习了!
solonace + 5 很给力!
jasu30 + 50

查看全部评分

kinno 发表于 2012-7-12 21:10 | 显示全部楼层
坐沙发学习
仙賢戀軒 发表于 2012-7-12 21:19 | 显示全部楼层
哎。提升IPC和命中率那么难么?
还是说这个架构就注定不适合民用?
说真的,反向HT这个想法真的是很不错的创意,如果对于强调IPC的程序来说,可以把两个(甚至多个)核心组合成一个强力的模块来跑单核的话感觉会很犀利啊
royalk  楼主| 发表于 2012-7-12 21:26 | 显示全部楼层
仙賢戀軒 发表于 2012-7-12 21:19
哎。提升IPC和命中率那么难么?
还是说这个架构就注定不适合民用?
说真的,反向HT这个想法真的是很不错的 ...

提升缓存命中率估计对AMD来说确实很难。。从K8以来一直存在的问题了
就现阶段来说连个产品白皮书也没有,哪怕你产品没问题,主板厂商BIOS都不好做
ggxuelei 发表于 2012-7-12 21:30 | 显示全部楼层
A喵D完蛋了,救不活了 = =
仙賢戀軒 发表于 2012-7-12 21:33 | 显示全部楼层
royalk 发表于 2012-7-12 21:26
提升缓存命中率估计对AMD来说确实很难。。从K8以来一直存在的问题了
就现阶段来说连个产品白皮书也没有, ...

缓存命中率应该是在设计逻辑时候的问题吧?

作为学数学的人对于这个算法还真的是有点兴趣了(虽然我知道很可能我完全看不懂)。。。
张建荣 发表于 2012-7-12 21:38 | 显示全部楼层


。。。。。 仔仔细细看完 , AMD依然不长进 。



                 R   辛苦了 。
yukika 发表于 2012-7-12 21:43 | 显示全部楼层
Bulldozer本身就一业界奇葩,INT的CMT和FPU的SMT同时存在,所以往后的BDv3/v4/v5再出现什么都不要惊讶



PS Win8的任务管理器写着Eight-Core.....
yukika 发表于 2012-7-12 21:46 | 显示全部楼层
张建荣 发表于 2012-7-12 21:38
。。。。。 仔仔细细看完 , AMD依然不长进 。

所以就应该出个Phenom III X8才符合大众观感....
royalk  楼主| 发表于 2012-7-12 21:53 | 显示全部楼层
yukika 发表于 2012-7-12 21:43
Bulldozer本身就一业界奇葩,INT的CMT和FPU的SMT同时存在,所以往后的BDv3/v4/v5再出现什么都不要惊讶

Eight-Core是CPU的name string啦,那个不关事的
底下内核显示是4个
索命书生 发表于 2012-7-12 21:53 | 显示全部楼层
哎,还是这么回事~
yukika 发表于 2012-7-12 21:56 | 显示全部楼层
royalk 发表于 2012-7-12 21:53
Eight-Core是CPU的name string啦,那个不关事的
底下内核显示是4个

没,本身Eight-Core就是市场部弄出来的,研发部早期打过脸
本来Core这个概念就不是固定的
royalk  楼主| 发表于 2012-7-12 21:57 | 显示全部楼层
yukika 发表于 2012-7-12 21:56
没,本身Eight-Core就是市场部弄出来的,研发部早期打过脸
本来Core这个概念就不是固定的 ...

是的,AMD一直是以八核心来宣传,好像现在也还是这样
yukika 发表于 2012-7-12 22:01 | 显示全部楼层
royalk 发表于 2012-7-12 21:57
是的,AMD一直是以八核心来宣传,好像现在也还是这样

毕竟卖东西的才能带来收入,研发部也得等着销售部回收的资金发工资呢


私觉得一开始用4M(C)8T来宣传效果会比现在好得多,不过会让X6打脸就是了,结果还是成绩说话,要是成绩逆天了,顺理成章就是Eight-Core
yukika 发表于 2012-7-12 22:04 | 显示全部楼层
PS 如果以SMT的角度来看FPU成绩,Bulldozer这成绩算不算是稍有观感
royalk  楼主| 发表于 2012-7-12 22:07 | 显示全部楼层
yukika 发表于 2012-7-12 22:04
PS 如果以SMT的角度来看FPU成绩,Bulldozer这成绩算不算是稍有观感

大部分成绩会跟默频的2600K差不多,也基本符合IPC的差距了,如果按国际象棋的9500/13300来算效率的话,CMT效率要比超线程要高不少
仙賢戀軒 发表于 2012-7-12 23:10 | 显示全部楼层
对了R大
IPC可以通过猛堆晶体管来提升么?这样会不会引起功耗的失控?
royalk  楼主| 发表于 2012-7-12 23:11 | 显示全部楼层
仙賢戀軒 发表于 2012-7-12 23:10
对了R大
IPC可以通过猛堆晶体管来提升么?这样会不会引起功耗的失控?

会功耗失控,不一定会增加IPC
我觉得现在对AMD来说L3缓存已经是累赘了,占了大量的晶体管但基本对性能比较有限
L3缓存该有但是不需要那么大
早期的Phenom II X4 810什么的就是个很好的证明了
batistutajou 发表于 2012-7-12 23:18 | 显示全部楼层
本帖最后由 batistutajou 于 2012-7-12 23:19 编辑

请问楼主的G1.Sniper 2 新BIOS在哪下载的,官网貌似找不到哇?小弟用的是Z68XP-UD3P,I5 3450在这板子上四核只能加速到3.3G,少了4倍频呀
royalk  楼主| 发表于 2012-7-12 23:25 | 显示全部楼层
batistutajou 发表于 2012-7-12 23:18
请问楼主的G1.Sniper 2 新BIOS在哪下载的,官网貌似找不到哇?小弟用的是Z68XP-UD3P,I5 3450在这板子上四 ...

http://forums.tweaktown.com/giga ... test-beta-bios.html
在这里找一下看看有没有你的型号的U打头的BIOS版本,好像不是每张Z68都有
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部