PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

推土机测试成绩汇总及其影响因素分析

  [复制链接]
跳转到指定楼层
1#
lk111wlq 发表于 2011-10-19 13:56 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:14894|回复数:34
本站推土机评测http://www.pceva.com.cn/article-221-1.html




推土机在十月十二日发布,国内外的许多硬件媒体都进行了相关的测试,对于推土机的性能,大家也都有了一些了解,而今天我想要与大家分享一下,我个人对推土机测试成绩的汇总,及其影响因素的一些分析。

推土机平台前瞻http://bbs.pceva.com.cn/thread-27497-1-1.html

所有资料均来自网络搜集,如有错误,敬请指正。

推土机架构对性能的影响

处理器性能可以看成是IPC(Instruction per Clock)x频率,推土机的频率已经确定,对于其IPC的讨论则还在继续。我们先汇总一下bulldozer与Phenom II的核心规格差异。

前端部分:指令预判部分采用队列模式存储于64KB的一级指令缓存中,而Phenom II是直接将预判结果传递给译码单元,改善了指令出错时导致的运算停滞现象;译码部分增强为4指令模式,可以同时对4条指令进行译码,而同一时间Phenom II只能处理3指令;前端部分由2核心共享;
运算部分:每个模块有两个整数运算单元,2核心独立,每个整数运算单元相比Phenom II缩减一个AGU、ALU,浮点部分由模块内2核心共享;
缓存部分:一级指令缓存仍为64KB,但由模块内2核心共享;一级数据缓存减小为每核心16KB,Phenom II为64KB;二级缓存增大到2核心共享2MB,Phenom II为每核心512KB;三级缓存增大到8核心共享8MB,Phenom II为4核心6MB。

可能使IPC提升的因素有:预判队列、译码增强、二级/三级缓存增大提高命中率、双线程浮点运算利用率提高;
可能使IPC降低的因素有:单个整数运算单元的处理能力降低、一级缓存的减小使得命中率降低、双线程共享可能造成的资源分配问题,以及流水线拉长导致的单位效率降低。

在进入成绩汇总之前我们先了解一下推土机的详细信息:

全球网站(英文)上已经有首批发布的FX系列处理器的信息。

桌面级的推土机架构处理器全规格为8核心,以及6核心、4核心产品,全部为不锁倍频设计,由GLOBALFOUNDRIES的32nm SOI工艺生产。旗舰型号FX-8150,默认主频3.6GHz,Turbo Core频率3.9GHz/4.2GHz,默认HT频率2600MHz,CPU-NB频率2200MHz(其余型号皆为2000MHz),内存频率1866MHz ,8MB二级缓存,8MB三级缓存,TDP为125W,新增AES, AVX  PlusFMA4, XOP指令集支持。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
lk111wlq  楼主| 发表于 2011-10-19 13:56 | 只看该作者

成绩汇总及简要说明

本帖最后由 lk111wlq 于 2011-10-30 11:53 编辑

在众多网站对推土机的性能测试中,测试项目的选取上大概有这么几类:
基础运算(superPi、wPrime、Fritz Chess Benchmark等)
媒体处理(x264 HD Benchmark、POV-Ray等)
3D渲染(CineBench R10/R11.5、Blender等)
应用程序(WinRAR/7-zip压缩解压软件、3ds Max、PhotoShop等)
显卡测试(3DMark 11/Vantage、Heaven)
游戏测试(Battlefield 2、Lost planet 2、Metro 2033等)
以及内存性能(AIDA64 Memmory)及其他综合测试工具(PCMark 7、AIDA64 CPU、SiSoftware Sandra 2011、SYSmark 2012)。功耗检测有Prime95、Linx整机功耗以及CPU 8Pin电流检测,温度读数大多采用AIDA64等软件读数。

这么多的测试,我们主要列举FX-8150与其他处理器对比的部分项目进行汇总。需要说明的是,汇总项目数据如无特殊说明,均为默认设置,即Turbo Core开启。由于数据搜集自不同网站的测试,平台差异导致数据必然有所出入,因此仅进行处理器间的差距比较,具体的数值不在讨论范围(性能数据均为越大越好)。


基础运算
Fritz Chess Benchmark

虽然在运行不同的多线程基础运算软件时,CPU使用率显示都为100%,但它们对资源的需求是不同的,因此任务的负载也不同,而Fritz Chess Benchmark这款软件运行时的负载比wPrime要高,推土机的8核心优势在这里得以体现,因此FX-8150的成绩领先x4 980约30%,但和2600K仍有12%左右的差距。至于单线程的性能表现,仍然是惨不忍睹,与3.6G左右的K10相仿。

媒体处理
x264 HD Benchmark

X264格式的高清视频测试,第一部分1nd为编码部分,多线程运行、负载较轻,FX-8150的8核心优势资源并没有体现,比x4 980还低了2帧左右,与2600K更是有25帧左右的差距;第二部分2nd为转码部分,多线程运行且负载较高,FX-8150的资源利用率提高,成绩领先1100T达5帧,也验证了之前推土机媒体处理能力较强的预测,但也只是与2600K持平,差距并不大。

x264 HD Benchmark AVX

我们知道,推土机相比Phenom II加入了新的指令集支持,其中AVX指令集Intel平台的Sandy Bridge处理器同样支持,上图就是部分处理器在开启AVX指令集进行x264 HD Benchmark测试的结果图。从上图我们可以看出,开启AVX指令集后,所有处理器的成绩均得到提升,而FX-8150虽然在第一部分1nd仍然输给2600K,但得益于8核心的优势,在最重要的转码部分则小胜了一把。除了AVX指令集以外,在其他支持AES-NI、XOP指令集的媒体处理测试中,FX-8150都有不错的表现,但主要取决于软件是否支持。

3D渲染
CineBench R10


CineBench R11.5

3D图形渲染测试,以出自Maxon公司的CineBench R10/R11.5为代表,可以进行纯CPU的单线程、多线程渲染。FX-8150在单线程的表现不出意料,虽然借由Turbo Core可以将频率提升到4.2GHz,但仍输给了1100T与Deneb核心的x4 980,与基础运算类测试的结果基本相同,再次反映出了单线程性能的孱弱;而多线程性能表现好于1100T与x4 980,一方面反应出这款软件对多核心处理器的支持,另一方面,也反应出FX-8150的多线程表现还不是特别理想,与2600K仍然有着40%的差距,但胜过2500K已经不是问题了。

应用程序
WinRAR

7-zip

在应用程序这块,选取了压缩软件WinRAR和7-ZIP,而此类软件都能够较充分地利用多核心/多线程,因此FX-8150的成绩领先1100T约10%,与2600K互有胜负。需要注意的是,并不是说所有多线程的应用程序FX-8150都能够取得很好的表现,还取决于其进行的处理(运算、渲染等)和对多核心的支持情况。

显卡测试
3DMark Vantage


再来看看显卡测试软件里推土机的表现。3DMark Vantage中(默认P模式),CPU得分FX-8150比1100T领先10%左右,但与2600K有着30%左右的差距;总分上,FX-8150与1100T相当,与2600K的差距缩小为15%左右,一方面反应出多线程在此软件中并没有太多优势,另一方面反应出CPU性能并不是瓶颈。

3DMark 11

物理分FX-8150与2500K相当,强于1100T与x4 980;总分基本与物理分的情况相同,但不论4核心、6核心、8核心,其差距都不算大,而众所周知3DMark 11对显卡的性能要求十分高,显卡才是总分提高的瓶颈,CPU性能对总分的影响相对来说较小。当然,不可否认的是,FX-8150与2600K的差距还是比较明显的。

游戏测试
Metro 2033

从3DMark Vantage/11的成绩已经可以预料FX-8150在实际游戏中的表现。以Metro 2033这款显卡危机游戏为例:在较低分辨率1920x1200时,FX-8150的表现与1100T相当,但输给2500K约7%;高分辨率2560x1600时,显卡成为瓶颈,FX-8150与2500K相当,且与2600K的差距并不大,仅为5%。
我们知道,大型单机游戏对整机的性能需求较高,甚至于某些游戏运行时的压力可以媲美烧机软件,但由于大部分游戏引擎多为数年前设计,并不能很好地支持多核心多线程的处理器,4核心/4线程的支持都仅有少部分游戏能够做到,支持6核心、8核心的游戏就更加地稀少。在一定的CPU性能基础上,游戏帧数更多地是由显卡决定,显卡性能若是瓶颈,CPU性能对帧数的提升很小,意义不大;显卡性能较强,游戏帧数较高,CPU性能过剩,同样对游戏体验的提升无太大意义。
总的来说,目前主流CPU均能满足绝大多数游戏的需求,FX-8150在游戏上的表现与Phenom II x4相当,8核心并没有明显的优势,提高频率带来的帧数提升要更加明显,而默认情况下(Turbo开启)的游戏表现与2500K互有胜负,具体则视游戏而定,更多地是受显卡的影响。

综合测试
PCMark 7

出自Futuremark的PCMark 7,几乎包含了前面所有的测试类型,具体对应为computation-计算能力、creativity-多媒体处理、productivity-办公应用、entertainment-娱乐性能,能较为准确、可观地反应平台整体性能,是一款不错的整机测试软件。从结果来看,2600K与2500K均在前列,计算与多媒体性能呈阶梯分布,FX-8150表现正常,娱乐、应用与总分上x4 980、1100T与FX-8150三者差距不大。

内存性能
推土机的CPU-NB经过优化后,默认支持的内存频率达到1866MHz,而且从现有的成绩来看,它和Llano一样,很能超内存频率。

上图是FX-8150在4.2GHz时的AIDA64 Cache&Memory测试,CPU-NB频率2200MHz,内存频率参数1866MHz 8 8 8 24 1T。可以看出,默认情况下的FX-8150读取、写入、复制三项轻松破万,而K10则要在相同主频、2800MHz左右的CPU-NB频率才能达到,有着不小的进步,但和Intel平台2600K/2500K三项均接近2W的成绩相比,还是有很大的差距的。


不同内存频率下的AIDA64内存测试(时序8 8 8 24 1T),基本与频率成正比,差距都在2%左右

从以往的经验来看,AMD平台的CPU-NB频率将对内存性能有较大的影响,而推土机不锁倍频使得CPU-NB超频更加地方便。上图就是外频不变,拉高CPU-NB倍频的不同测试结果。需要说明的是,在风冷/水冷等常规散热条件下,CPU-NB频率超过2800MHz就很不稳定,即使加压也没有效果,而在-50℃时,CPU-NB可以在3200MHz下完成各种测试。结果表明内存效能的提升与CPU-NB的频率成正比,但在大部分应用中的性能提升并不明显。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
3#
lk111wlq  楼主| 发表于 2011-10-19 13:56 | 只看该作者

影响因素

本帖最后由 lk111wlq 于 2011-10-20 10:54 编辑

上面都是默认情况下的推土机测试成绩,究竟表现如何,我想每个人看过之后都有自己的想法,加上每个人的需求和经济能力不同,对此我们不去深究。而在搜集资料的过程中,有一些网站做的一些测试,对于探讨推土机性能的影响因素有着不错的参考价值,在此进行整理,与大家分享,欢迎回帖一起探讨。

首先是FX系列处理器性能中不可或缺的组成——Turbo Core 2.0


上图是1100T的Turbo Core,可以看出在运行x264时几乎没有生效

上图是FX-8150在运行相同的x264多线程任务时的Turbo Core效果,可以看出有明显的频率提升

2500K的Turbo Boost效果,默认主频3.3GHz,全程几乎都运行在3.4GHz,比FX-8150稳定,但两者平均的频率提升百分比都为3%左右。

上图是FX-8150开启Turbo Core后所得到的性能提升,可以看出,多线程任务包括媒体处理、应用程序、游戏,都有5%的提升,而单线程任务则有10%以上的提升。

上图表示了Turbo Core 2.0完整的运行流程:双核心高负载,频率提升至4.2GHz;4核心高负载,频率提升至3.9GHz;8核心高负载,几乎接近TDP限制,Turbo Core失效,降低至默认频率3.6GHz。低于3.6GHz部分表示节能设置CnQ生效,下方的橙色曲线表示各情形下对应的功耗。

总的来说Turbo Core2.0相比上一代Thuban核心的作用更加显著,能够提升部分性能,但从目前推土机的体质来看,大部分都能在1.3v以内将8核心稳定运行在4GHz,完全可以手动锁定倍频进行性能提升,对于玩家来说Turbo Core并没有太大的意义。

更多资料http://www.anandtech.com/show/49 ... amd-fx8150-tested/4


多线程的分配

我们知道,推土机架构虽说是8核心,但实际上有部分为模块内2核心共享,4模块间独立,而这样的设计方式与现有的操作系统、软件能否很好的适应?请继续往下看。


上图是SuperPI的测试,左图为默认设置,右图为手动分配单核心。从结果来看,手动分配的要好0.047s,但由于差距太小,加上为单线程运行,因此其影响因素我们保留意见,仅作为一个引子。


上图是进行4核心的Fritz Chess Benchmark测试,左上为自动分配核心,右上为指定2模块4核心,左下/右下为指定4模块4核心。通过对比可以看出,性能排名为2模块4核心<自动分配核心<4模块4核心,4模块4核心的2次测试选取了不同的核心,两者性能没有显著差异,从CPU使用率来看,自动分配核心时,8个核心均有负载。综合来看,2模块4核心的成绩最低,可以归结为共享资源造成的部分性能损失,这在意料之内;而自动分配核心性能低于手动指定,除了共享资源影响之外,操作系统会将任务分配给空闲的核心,因而使得8核心均有负载,TurboCore失效,从而造成一定程度的性能降低(Fritz Chess约为7%)。

很容易想到,Fritz Chess Benchmark中的现象不会是个别,在其他应用、游戏中也将受到同样的影响,而这样的影响主要来自于操作系统。

上图为现有操作系统的详细线程分配模式,除了线程平均分配到不同模块影响Turbo Core以外,当同一个线程中的子任务被分配到不同模块时,也会对其性能产生不利的影响。

优化过的线程分配如上图。

除了性能方面的影响,不适合的线程调用还使得节能设置CC6无法正常发挥作用。

最左边为WIN7的任务管理器,右边2个为WIN8。我们可以看到,WIN8任务管理器中有部分核心处于Parked关闭状态,从而降低了待机的功耗;而WIN7中不合适的线程分配,我们几乎看不到核心关闭的状态。

现有的WIN7操作系统还不能很好地适应推土机架构的模块化设计,而从目前在WIN8开发者预览版本上进行的部分测试来看,推土机与操作系统的配合得到改善,使得推土机的性能有着不同程度的提升。

模块化设计

从前面Fritz Chess Benchmark的2模块4核心与4模块4核心性能对比中我们发现,4模块的性能大概比2模块要好%16,不仅猜想,那么8核心时8模块与4模块的性能差距又是多少呢?

上图是法国某网站(法文)进行的不同模块、核心性能测试,第一列的M代表模块Module,C代表核心Core,以4M/4C时的性能为基准,将4M/8C、2M/4C的成绩作为分子,则得到它们的性能百分比列表。可以看出,4模块下8核心与4核心的性能差距从没有差距(甚至更低)到180.4的大幅度提升,与应用程序、游戏的支持有很大的关系;而4核心时2模块与4模块,有0-30%不等的性能差距。

我们都是将推土机以8核心的概念来理解,因而能进行8线程的运算,而Intel通过超线程HT技术使得4核心的处理器也能够进行8线程运算,如果我们以4核心为前提,把K10的6核和推土机的8核也视为另类的“超线程”,那么对比不同核心的性能,我们可以得到它们“超线程”的效率列表:

SNB平台超线程HT的效率在之前已经有所了解,而反观6核K10与8核推土机,“超线程”的效率几乎与增加的核心数成正比。当然,以上说法本身就存在歧义,我们要了解与讨论的,是模块化设计的8核心与真正的物理4核心相比,它的性能提升、性能损失情况。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
4#
lk111wlq  楼主| 发表于 2011-10-19 13:56 | 只看该作者

总结

本帖最后由 lk111wlq 于 2011-10-19 14:08 编辑

推土机的单线程性能较同频K10弱,反应出了单核整数运算单元规格缩减带来的性能降低,而更长的流水线使得单位效率更低,进一步降低了其单核性能;多线程性能表现的参差不齐反应了资源调用与线程分配上的问题,更高的资源利用率和增大的L2、L3缓存并没有起到决定性的作用,更多的还是需要操作系统与应用程序的优化与支持,而这显然不是短时间内能够解决的,再加上32nm SOI工艺在功耗控制上的表现不尽人意,面对市场定位的竞争对手2600K/2500K时,更显得竞争力不足、销售市场危机重重。推土机未来的努力方向应该是努力提升IPC的同时降低功耗,而此前也有相关的路线图发布,但实际情况如何,还需要很长的时间来验证。
5#
lk111wlq  楼主| 发表于 2011-10-19 13:56 | 只看该作者
本帖最后由 lk111wlq 于 2011-10-19 14:08 编辑

真正的沙发~~  欢迎各位提出问题~{:1_305:}
6#
James007ss 发表于 2011-10-19 14:30 | 只看该作者
WIN7有没可能通过补丁提升线程分配的效率呢?
7#
royalk 发表于 2011-10-19 14:41 | 只看该作者
WIN7 SP2据传言会有提升,但是也不用报太大期望
WIN8目前还是开发预览版,倒是可以期待一下
8#
wwwff 发表于 2011-10-19 21:43 | 只看该作者
AMD的新工艺啊,新架构,都让人不省心。955的接班人在哪里。。。
9#
a02000904 发表于 2011-10-19 21:52 | 只看该作者
本来就不看好了,华擎890GX厂家又不给升级BIOS,以后换INTEl
10#
135tt 发表于 2011-10-20 01:52 | 只看该作者
LK 辛苦了。拜读中...

评分

参与人数 1活跃度 +20 收起 理由
lk111wlq + 20 看的认真哦~

查看全部评分

11#
Latias.M 发表于 2011-10-20 08:27 | 只看该作者
回复 5# lk111wlq


    我也不是特别懂硬件,但是听说这次推土机的测试分数国内外差别很大,就连国内几大网站差别都很明显。如果只采用国内测试会不会得不出真实结论啊
12#
liwenchao 发表于 2011-10-20 09:41 | 只看该作者
推土机要等win8啊。要不性能发挥不出来。
13#
lk111wlq  楼主| 发表于 2011-10-20 10:56 | 只看该作者
本帖最后由 lk111wlq 于 2011-10-20 10:57 编辑

回复 11# Latias.M


   成绩几乎没有采用国内的... 国内的测试都太片面了,没有什么值得参考的。每个类型的测试选取的是比较稳定的软件,应该不会有太大差距的成绩出现,如果你有发现的话,麻烦你指出,我会及时对照修改~~
14#
lk111wlq  楼主| 发表于 2011-10-20 10:58 | 只看该作者
回复 10# 135tt


   已修正~ 多谢~
15#
royalk 发表于 2011-10-20 11:04 | 只看该作者
回复  lk111wlq


    我也不是特别懂硬件,但是听说这次推土机的测试分数国内外差别很大,就连国内几大网 ...
Latias.M 发表于 2011-10-20 08:27


成绩差异大其中一个原因是多线程的时候所有核心跑不了满速,并且ASUS和GIGA目前BIOS都有问题,MSI的反而稍好
16#
Latias.M 发表于 2011-10-20 17:00 | 只看该作者
回复 15# royalk


    这次AMD到底怎么回事,推土机拖了快一年才出个这么个东西,bios到现在也不完善。奇了怪了
17#
royalk 发表于 2011-10-20 17:02 | 只看该作者
回复  royalk


    这次AMD到底怎么回事,推土机拖了快一年才出个这么个东西,bios到现在也不完善。奇了 ...
Latias.M 发表于 2011-10-20 17:00


BIOS方面,AMD的公版BIOS本来就不靠谱,然后9系主板由于发得早,厂商都对K10优化和调教,到了推土机AMD只匆忙几天更新BIOS,估计和原有的一些功能就不兼容了
18#
alex4977 发表于 2011-10-21 09:18 | 只看该作者
关键还是推土机自身问题大,不仅仅是工艺,设计本身就有问题,晶体管多了那么多,性能却提升有限,而且IPC一塌糊涂。按道理,模块化的设计理念还是比较先进的,却被AMD做成这个样子,真是。。。不可思议。。。和第一代P4有的比了~~
19#
oo304oo 发表于 2011-10-23 15:47 | 只看该作者
那个x264 HD benchmark 的1pass是encode不是decode

速度快的原因是因为低参数跑
x264-32 --quiet --pass 1 --bitrate 3959 --stats "1.stats" --level 4.1 --keyint 24 --min-keyint 1 --bframes 3 --direct auto --subme 1 --analyse none --ipratio 1.1 --pbratio 1.1 --vbv-bufsize 30000 --vbv-maxrate 38000 --qcomp 0.5 --me dia --threads auto --thread-input --sar 1:1  --output NUL "test-720p.avs" --mvrange 511 --aud 2>&1 | tee 32run1pass1.log
这种极端低参数跑1pass从编码的目的上看是为了跑出码率曲线方便2pass进行码率分配,从测试的角度上看的话,x264这边极低参数下对于多线程的依赖就不大了,速度上的差距更多的要依赖处理器的单线程性能差距

题外话--x264 HD benchmark里面编译的那个x264据前辈们的说法,似乎“懷疑那個1913沒跑過fprofile……”,和x264nl上的r1913以及jeeb大神编译的r2085 1pass性能差距有6-10fps,2pass性能差距有1-2fps(2600K@4.4Ghz
20#
oo304oo 发表于 2011-10-23 15:55 | 只看该作者
奇怪为写了之后发出来的是空贴啊囧
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部