谈谈推土机在WIN7与WIN8下的性能差异

ly530408 · 发表于 2012-7-14 19:04

本文的观点是完全错误的.

royalk · 发表于 2012-7-14 19:06

ly530408 发表于 2012-7-14 19:04
本文的观点是完全错误的.

怎讲？

ly530408 · 发表于 2012-7-14 20:54

你去看一下 amd，拿什么来拯救你？amd单核效能提升多少，你会接受？这个帖子中本人的回复就全清楚了。数据是死的，但是研究和发现问题的角度是活的的。
现在问你几个问题
1. 当年在AMD的Athlon64在游戏和市场中尽现风采,压的当时的P4只能防守全无进攻之力的数学和理论依据是什么。
2.INTEL酷睿系列处理器有哪些重大更新，其领先X6
1055T数学和理论依据是什么。
3.AMD在推土机的架构上作了那些几点重大的更新，这些更新使AMD在那些方面表现了强势，那些方面还有不足。其数学和理论依据是什么。
4.为什么AMD知道其弱点不去补强，其其数学和理论依据是什么。
5.AMD其弱点补强可以采取的办法用那些。

royalk · 发表于 2012-7-14 21:02

ly530408 发表于 2012-7-14 20:54
你去看一下 amd，拿什么来拯救你？amd单核效能提升多少，你会接受？这个帖子中本人的回复就全清楚了。数据 ...

你问的这些问题关我这篇文章什么事？莫名其妙。
我要说的只是WIN8下线程调度机制有所优化对推土机来说更有利，但也别指望它的性能有什么本质提升，如此而已。
发现问题？那是AMD的事，不是我的

ly530408 · 发表于 2012-7-14 21:50

不是没关系,测试决不是目地,发现问题的所在才是测试的本意,数据的堆砌是没有任何意义的。在AIAD64中FX-4100的数据在windows中的内存潜伏是48.5 ns，而在xp中内存潜伏是59.7 ns，这说明了什么，FX-6100在AIAD64中测试的成绩要好于FX-8150又是为什么？探索问题解决问题是人类永远向前发展的动力，你已经迈出了可喜的第一步为什么不向下探求呢？

royalk · 发表于 2012-7-14 21:57

ly530408 发表于 2012-7-14 21:50
不是没关系,测试决不是目地,发现问题的所在才是测试的本意,数据的堆砌是没有任何意义的。在AIAD64中FX-4100 ...

我又不是AMD的人，也拿不到什么最新东西。问题的所在我不是讲的很清楚了吗？WIN7的线程调配更适于SMT，而WIN8对推土机的线程调配有优化。
探索也只限于我力所能及的而已了，至于再往下有没有改善，得等打桩机出来再说了，不是么？要不你有样品提前给我测测也成？

ly530408 · 发表于 2012-7-14 22:13

你没有看懂本人的意思,是希望你能去揭示测试背后的规律和原因.本人没有FX-8150,只有FX-4100,故希望你通过测试找出规律.不是仅说是什么,更希望你回答是什么,怎么办.难道只有AMD的人才行,其实你自身向前跨一步,也许答案就在眼前.本人丝毫没有为难你的意思.顺带告诉你一下，按本人的研究结论。DX11的游戏如果对多核优化的好，在最高画质的运行下用HD7970去测FX-8150，FX-8120，FX-6100，FX-4100，I7 2600K，I5 2500K可能差距不大。你可测试一下。并祝你一切顺利。

royalk · 发表于 2012-7-14 22:18

ly530408 发表于 2012-7-14 22:13
你没有看懂本人的意思,是希望你能去揭示测试背后的规律和原因.本人没有FX-8150,只有FX-4100,故希望你通过测 ...

除了线程调配有优化的项目有提升，其它基本一样的结果，我觉得很符合常理啊。不知道你要我找什么规律呢？

印第安纳琼斯 · 发表于 2012-7-14 22:24

这位叫ly530408的仁兄到底想说什么？看不明白啊……

难道是说AMD不是不想做，而是不必要做？反正玩游戏都一样？

ly530408 · 发表于 2012-7-14 22:52

印第安纳琼斯发表于 2012-7-14 22:24
这位叫ly530408的仁兄到底想说什么？看不明白啊……

难道是说AMD不是不想做，而是不必要做？反正玩游戏都 ...

   不是的,本来这篇研究的结果还须验证,你要看就不仿先给出结论部分.
   究竟是什么原因导致单位周期整数指令数上FX系列和I系列处在了同一起跑线上却没有改变其在浮点运算上大幅落后的事实，其实几乎所有人都忽略了一个重要的事实就是INTEL推出I系列处理器是设计了全新的的高速Radix-16除法运算器，大幅改善了宽位动态执行的效率，相比此前Merom采用的Radix-4除法运算器，Radix-16除法运算器每个时钟周期内可以传递4bit的数据，每周期可处理4个指令，相比过去只能进行2bit的运算,处理2个指令，执行效率提高了不少。
而目前推土机架构CPU采用的Radix-4除法运算器每个时钟周期内可以传递2bit的运算，处理2个指令。
现在我们进行一个计算：
i7 2600 ，四个Radix-16除法运算器，其采用超线程的能力使其相当于六个Radix-16除法运算器，则其每个时钟周期内可以处理24个指令=6x4。
FX-6100，三个Radix-4除法运算器，采用六核三模块的架构由于其效率的提升的原因使其相当于六个点五个Radix-4除法运算器，则其每个时钟周期，内可以处理13个指令=6.5x2。
也就是说 i7 2600 浮点运算能力是FX-6100浮点运算能力的两倍=24/13=1.85
   将i7 2600 内存写入18438 MB/秒
FX-6100 内存写入9928MB/秒
18438 MB/秒/9928MB/秒=1.85
   同样FX-6100 内存写入9928MB/秒
X6  1055T 内存写入6895 MB/秒
X6  1055T 六个Radix-4除法运算器。采用六核的架构由于其效率的原因只相当于四点六个点
Radix-4除法运算器，则其每个时钟周期内可以处理9.2个指令=4.6x2。
13/9.2=1.41
   9928MB/秒/6895 MB/秒=1.43
这个运算结果也反驳了是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的说法。
前面分别指出了AMD推土机架构CPU涉及到浮点运算的无一例外的败下阵来,而凡是涉及整数运算
的项目AMD的的推土机的CPU无一例外的扬眉吐气数学原理和具体的证明。
即然AMD推土机架构涉及到浮点运算的能力偏弱的这一明显的事实，为什么AMD还要坚持推土机架构而且不肯放弃呢？除了上面通过数学和实例证明并非是推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的说法外，还有一个重要的原因，就是在未来的大数据量的通用计算和浮点运算时起着主导地位的将是GPU。CPU未来的大数据量的通用计算和浮点运算时仅起着调用GPU的通用计算和浮点运算能力的作用，在未来的大数据量的通用计算和浮点运算时仅起辅助作用。这一点在大型通用计算机和超级服务站的架构中得到了体现。
现在引用作者：中关村在线濮元恺的一篇文章，超越图形界限 AMD并行计算技术全面解析的一
段话不无启迪的意义。
AMD就是充分的分析了这一趋势才采取了每一颗核心拥有双倍的整数运算单元，每个单元4条并行流水线，整数和浮点为非对称设计。Bulldozer还将加入128-bit的SSE5指令集支持，达到更高的执行效率，还通过增加CP寄存器数量，为单指令多数据流技术（SIMD）运算提供更多的空间。
这种设计使得浮点计算的重任开始向GPU倾斜，未来的CPU将专注整数运算能力，而如果用户需要大量的并行浮点计算，可以选择使用外置的加速卡（GPU通用计算产品）来实现。
在一个推土模块里面有两个独立的整数核心，每一个都拥有自己的指令、数据缓存，也就是scheduling/reordering逻辑单元。而且这两个整数单元的中的任何一个的吞吐能力都要强于Phenom II上现有的整数处理单元。Intel的Core构架无论整数或者浮点，都采用了统一的scheduler(调度)派发指令。而AMD的构架使用独立的整数和浮点scheduler。
AMD认为CPU和GPU谁也不可能取代谁，双方是互补的关系，只有CPU和GPU协同运算，各自去处理最擅长的任务，才能发挥出计算机最强的效能。从CPU漫长的发展历程来看，它会延续一路不断整合其他功能单元的道路来整合GPU，但仅限中低端产品，而且这种整合不是吞并，而是提高CPU的浮点运算性能；GPU会取代CPU进行浮点运算，但它仍然需要CPU来运行操作系统并控制整个计算机。
这段摘要就充分说明了AMD对未来CPU发展的总体思路。
那么这种做法是否科学呢？
那么大家可以看到在更强调浮点运算和通用计算的游戏的图形运算中I系列的处理器并没有取得如同内存写入一样的两倍的优势。这个产生的原因就是当游戏的图形运算中浮点运算和通用计算的数据量极大，特别是在DX10，DX11的游戏时，GPU的浮点运算和通用计算的数据量远超过CPU的浮点运算和通用计算的能力时，CPU的浮点运算和通用计算的能力地位将大幅下降其将处于辅助的地位。
现在给出数学公式如下：
综合浮点运算的能力=(1/(GPU的浮点运算能力+CPU的浮点运算能力))X运算地址调度能力(为整数运算能力) (其最后的值越小越好,运行速度越快)
运算地址调度能力=4/软件可支持的处理器的的整数运算单元 (其最后的值越小越好,运行速
度越快)
现在已知:
i7 2600 浮点运算能力 0.107TFLOPS
FX-8150 浮点运算能力 0.076TFLOPS
HD6970  浮点运算能力 2.7TFLOPS
i7 2600 运算地址调度能力=4/软件可支持的处理器的的整数运算单元 =4/4=1
FX-8150 运算地址调度能力=4/软件可支持的处理器的的整数运算单元=4/4=1(因为软件可支持的处理器的的整数运算单元不识别FX-8150的推土机架构故按4个整数单元计算)
则有
i7 2600综合浮点运算的能力=1/( 0.107TFLOPS+2.7TFLOPS)X1=0.3562
FX-8150综合浮点运算的能力=1/(0.076TFLOPS+2.7TFLOPS)X1=0.36
i7-2600综合浮点运算的能力是FX-8150综合浮点运算的能力的=1.01=0.36/0.3562
也就是说当游戏的图形运算中浮点运算和通用计算的数据量极大，特别是在DX10，DX11的游戏时，GPU的浮点运算和通用计算的数据量远超过CPU的浮点运算和通用计算的能力时，CPU的浮点运算和通用计算的能力地位将大幅下降其将处于辅助的地位的说法是有数学依据的.
请大家注意如果运算地址调度能力是八个整数运算单元则计算结果要逆转.
现在将DX11,DX10的游戏数据进行计算有
尘埃3          i7-2600综合浮点运算能力是FX-8150综合浮点运算的能力1.016=72.93/71.73
失落的星球2    i7-2600综合浮点运算能力是FX-8150综合浮点运算的能力1.007= 38.1/37.8
异形大战铁血战士 i7-2600综合浮点运算能力是FX-8150综合浮点运算的能力1.001=66.6/66.5
Crysis          i7-2600综合浮点运算能力是FX-8150综合浮点运算的能力1.009=40.48/40.11
但是在DX10的far cry 2 游戏中由于对CPU单模块识别问题,i7-2600 运算地址调度能力不变,
FX-8150而运算地址调度能力=4/软件可支持的处理器的的整数运算单元中的软件可支持的处理器的的整数运算单元不是四个,至多按超线程的最好结果单个整数单元按0.95的效率算则有4/(4X0.95)=4/3.8=1.05
i7 2600综合浮点运算的能力=1/( 0.107TFLOPS+2.7TFLOPS)X1=0.3562
FX-8150综合浮点运算的能力=1/(0.076TFLOPS+2.7TFLOPS)X1.05=0.378
i7 2600综合浮点运算的能力是FX-8150综合浮点运算的能力的1.061=0.378/0.3562
则有far cry 2 i7-2600综合浮点运算能力是FX-8150综合浮点运算的能力的105.81/99.92=1.0589
由此可见公式的与实测基本吻合.
有人会问为什么DX9会出现如此大的差距.
其实上面的公式是可用的但是要给GPU的运算量设定上限即可.也就是说GPU进到DX9的浮点运算量不超过0.2TFLOPS
i7 2600综合浮点运算的能力=1/( 0.107TFLOPS+0.2TFLOPS)=3.25
FX-8150 浮点运算能力的能力=1/(0.076TFLOPS+0.2TFLOPS)=3.62
DX9中i7 2600综合浮点运算的能力是 FX-8150 浮点运算能力的能力的1.11=3.62/3.25
使命召唤黑色行动i7 2600综合浮点运算的能力是 FX-8150 浮点运算能力的能力的1.10=
119.61/107.95
星际争霸2中由于对游戏中由于对CPU单模块识别问题,i7-2600 运算地址调度能力不变,FX-8150而运算地址调度能力=4/软件可支持的处理器的的整数运算单元中的软件可支持的处理器的的整数运算单元不是四个,至多按超线程的最好结果单个整数单元按0.6的效率算则有4/(4X0.8)=4/3.2=1.25
   DX9中i7 2600综合浮点运算的能力是 FX-8150 浮点运算能力的能力的1.39=3.62X1.25/3.25
   星际争霸2i7 2600综合浮点运算的能力是 FX-8150 浮点运算能力的能力是138=101.73/73.71
   从以上的公式可以看出随着GPU的通用运算和浮点运算能力的提高，CPU的通用运算和浮点运算能力的的作用将相对弱化。未来的CPU将专注整数运算能力。
   通过以上的分析可以看出AMD坚持采用推土机架构是合理和科学的它反映了今后CPU和GPU的融合的必然趋势。然而AMD的CPU的浮点运算的软肋终究是要补齐的。其补齐的方法不外是以下几条。
1。给CPU设计全新的除法运算器。
据超能网的消息：
地址为：http://www.expreview.com/18614.html
采用Radix-8除法器，第三代“推土机”架构揭秘
　  按照AMD的规划，“Bulldozer”推土机是第一代模块化CPU，第二代则是Piledriver打桩机，将于今年下半年发布，而且使用了Cyclos半导体的Resonant Clock Mesh技术以提高性能。到了2013年就该“Steamroller”压路机出场了，AMD对它的描述是“Greater parallelism”，强调并行性能提升。
　　有关压路机的架构设计目前还是捕风捉影的阶段，日前AMD研究部门的David M. Russinoff发布的一篇论文中证实了Steamroller将会采用radix-8 SRT浮点模块，每周期运行指令将从目前的radix-4单元的2条提高到3条.Steamroller改变的是CPU中除法器（diyider）单元的设计，有兴趣的可以参考wiki的解释。David M. Russinoff参与了Llano APU的设计，其diy单元与前代K10没有diy硬件支持的设计有所不同，推土机继承了K10的设计，FMAC（浮点累积乘单元）中的除法器功能有限。现在Steamroller的设计类似Llano，当然不会是100%相同，因为它使用的是radix-8而非Llano的radix-4，每周期执行的指令数从2条提高到了3条。对比Intel的前进的步伐，AMD其实还是慢了许多，因为Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了，每周期指令数从原来的2条一下子提高到4条，数据延迟更低，浮点单元以及整数单元都可以从中受益。
分析认为AMD之所以没有采用radix-16而用了折衷的radix-8，是因为模块化结构中FP浮点单元被两个整数单元共享，radix-16过于复杂，成本更高。架构上的设计变化太过学术化，AMD的模块化CPU理念先进，但是第一代CPU表现并不太好，既有工艺上的掣肘也有架构设计上的不足，希望到了Steamroller这一代能更成熟些。
从以上的消息可以看出压路机出台后而此架构一但落实与成功,AMD与IETTL的差距将不复存在.但有人会说Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了.每周期指令数从原来的2条一下子提高到4条.你的效率还是低25%.可是大家不要忘记AMD的CPU是双核心组合模块新架构,2 X radix-8=2X3=6.效率将是6/4=1.5=150%.
2。通过硬架构实现CPU、GPU统一寻址，充分调用GPU的强大的通用计算和浮点运算的能力.而随着第三代的APU的CPU、GPU统一寻址，则,AMD与IETTL的差距也将不复存在。
现在看一条消息：
AMD包圆核心硬件?索尼PS4规格最新传闻
相关专题：新闻时间：2012-05-29 05:41 来源：和讯网
我们知道，AMD已经确定为索尼PS4提供从处理器到图形芯片一揽子解决方案。
今天，网上又泄漏了据称是索尼PS4的硬件规格，下面让我们来先睹为快。
索尼PS4研发代号Orbis，发布日期2013年圣诞节前后。处理器采用AMD 28nm 64-bit Kaveri，
4个Steamorller核心，8个线程，512个流处理器，1TFLOPS计算能力，用途为通用计算（物理，AI，
动画等等）。
PS4图形系统采用AMD 28nm GPU，基于Pitcairn，GCN架构，1280(1D)个流处理器，计算能力
大约2.5TFLOPS。
PS4配备4GB共享内存，500GB内置硬盘，蓝光驱动器。
这条消息如果被证实,则包含了巨大的信息量.极为重要.
1)首先反映了AMD的第三的APU的架构预研已经结束.即将转到流片的前期准备工作,否则到明年
才开始准备流片的前期准备工作,时间及生产部署根本来不及.
2)其次反映了AMD的第三的APU的架构的达到了预期的技术指标,满足PS4的技术架构的整体要求
。首先从APU的浮点运算能力和通用计算已达到1TFLOPS计算能力，用途为通用计算（物理，AI，动
画等等）。这说明了个问题，即有要么是CPU的浮点运算有了大幅度的提高，要么是CPU和GPU的融合
性能有了质的飞跃。即加入的RISC微型处理器对CPU核心、GPU各线程进行实时动态调度，大大克服
了目前推土机所存在的线程调度问题，将软件级线程调度（操作系统调度）提升到硬件级别，开放
式异构计算架构 HSA使性能提升达到了非常强劲的地步。或者两者兼而有之。
3)PS4图形系统采用AMD 28nm GPU，基于Pitcairn，GCN架构，1280(1D)个流处理器，计算能
力大约2.5TFLOPS。它说明了Pitcairn，GCN架构的显卡的架构的巨大的浮点和通用计算能力在游戏
中将有出色的表现。并该显卡与APU中的GPU组成双显卡的CF体系将使整机的浮点和通用计算能力达
到或大幅度的超过1TFLOPS+2.5TFLOPS=3.5TFLOPS的浮点和通用计算能力。
4)CPU的浮点运算的架构有了质的改进。
以上的推断是否正确呢？最近硬派网的消息如下：
28nm工艺第三代APU—Kaveri规格预览
来源:wccftech 【编译】 2012-07-05 作者:王磊责任编辑:王磊
尽管桌面版的Trinity还没发布，但AMD已经计划好将于明年推出28nm工艺、架构为Kaveri
的第三代APU，以取代32nm工艺Trinity的位置。
Kaveri APU将具备2~4个Steamroller（压路机）核心，其中四核款的TDP将为100W。同时，
Kaveri将支持DDR3-2133MHz内存，具备4MB三级缓存，而接口将继续使用Socket FM2。
GPU方面，Kaveri将采用GCN架构的HD8000系列显卡，规格最高的版本将具备384个流处理器，
而性能预计将接近HD7750。此外，Kaveri也将支持双显卡混合交火、Turbo Core、Blu-ray 3D、
AMD –V、UVD 3.2、Direct Compute以及OpenCL等技术。
另外来自驱动之家的消息如下：
APU明年实现真正的CPU/GPU统一寻址
2012-06-13 16:28:44作者：上方文Q 编辑：上方文Q
AMD一直宣传Fusion APU不仅仅是CPU、GPU的简单物理整合，更是深层次的融合，而实现这
种融合的关键之一就是CPU、GPU的统一内存空间寻址。经过Llano、Trinity的两代铺垫之后，
明年的Kaveri将最终完全实现这一梦想。
彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互
的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。
无论是3D图形性能还是并行计算性能，都会因此上一个台阶。
对于开发人员来说，统一寻址意味着更少的参数、更少的调试、更简单的接口，自然能大大
减轻编程的负担。
还有消息确认，Kaveri APU的CPU部分将会是“压路机”(Steamroller)，仍然是推土机架构
但会解决目前打桩机架构中的几个重大问题，基本展现推土机应有的实力，GPU部分则是真正的
GCN架构，不像Trinity那样是VLIW4架构加上Radeon HD 7000系列的部分特性综合而成。
至于是不是每个核心都会有自己的浮点单元和指令调度器，CPU、GPU是否能共享三级缓存，封装
接口会不会再次改变，现在都还不能确认，从可能性上看后两个比较大，而前者概率很低。
Intel Haswell也将在明年继续大幅提升图形性能，最多40个计算单元，三级缓存共享也早已
实现，但不会有统一内存寻址，并行计算虽然支持但不可能有太好的表现。
另外，AMD还在AMD Fusion开发者峰会上宣称，APU的历史累计出货量已经超过4000万颗，十二
大OEM厂商中有十一家都采纳了APU，Llano APU在AMD移动平台上的普及率已达60％。
从以上的报道证实作者的推断的正确度.
3.通过编写OpenGL的软件，实现CPU对GPU运算能力在底层的调用，以充分发挥GPU的强大
的通用计算和浮点运算的能力。这一项的实现是未来AMD可能为购买新一代的GPU发放的一项福
利。
   这项福利的发放会有三种情况:
   1）AMD自己通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化
CPU的通用计算和浮点运算的能力。
   2）主板厂商通过充分研究，并且与AMD的合作，完成编写主板的固件程序来完成CPU对GPU通
用计算和浮点运算的能力的调用，以强化CPU浮点运算的能力。这即是主板厂商综合实力的体现，
也是未来主板差异化战略的重大商机。
3)软件厂商通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化
CPU的通用计算和浮点运算的能力。为自己的产品开辟新的商机。
也就是说当前买了推土机架构的CPU，以后可能通过购买AMD的显卡及附属的驱动软件来调用
GPU的强大的通用计算和浮点运算的能力，实现CPU功能的提升。
对第三方的主板商或软件商来说这是一个稍纵即逝的战略商机，如果AMD一旦腾出手来机遇也
就不复再来。同样的问题和解决思路亦可用于INTEL的CPU和NVIDIA的显卡上。但是当这两家也发
现此商机，实现专断开发时，就不会再有此商机。

ly530408 · 发表于 2012-7-14 23:23

royalk 发表于 2012-7-14 22:18
除了线程调配有优化的项目有提升，其它基本一样的结果，我觉得很符合常理啊。不知道你要我找什么规律呢？ ...

你的测试已经很细致了，你想过没有其在不同的线程下实际运行的是处理器的整数和浮点运算单元。如果通过线程的调用的数据的变化，以此找出处理器的整数和浮点运算单元在运行的状态与效率，你就超越了你自己，如果找出相关变化的规律，特别是数量变化引起变动大小的关联度，你超越了AMD的人了。你离大师就不远了。

royalk · 发表于 2012-7-15 01:33

ly530408 发表于 2012-7-14 23:23
你的测试已经很细致了，你想过没有其在不同的线程下实际运行的是处理器的整数和浮点运算单元。如果通过线 ...

那么首先对你70楼的计算中部分内容提几个问题
一是从我的测试来看Intel的超线程效率达不到50%，为何你以50%来计算
另外1055T为何又因为“效率原因”相当于4.6个点来计算
第二，你提到AIDA64的内存写入
i7 2600 内存写入18438 MB/秒
FX-6100 内存写入9928MB/秒
X6 1055T 内存写入6895 MB/秒
算出来看似符合你所说的除法器的运算理论，
但是：1. AIDA64的算法是多少位的浮点运算？
2. AMD的K10/推土机，我们知道CPU-NB和主频是不同频率，CPU-NB频率变化，会直接影响内存写入数值，并且这个影响基本上是线性的，这个该如何解释？
--------
下面是对71楼的回复：
我的职责不是研究数据，而是把研究结果用最通俗的话来告诉大家，在一篇文章中钻研太深会降低我文章的受众面，这是我需要权衡考虑的问题，因此我在这篇文章本打算是对比一下基于系统变化而对推土机的性能造成什么影响，并且我认为结论并无大问题。但我这篇文章没有写得很深，并不代表我不愿意追求更高深的知识，所以在今后的文章问题方面，还请多指教了。

yy2736 · 发表于 2012-7-15 03:56

不错，，我喜欢

ly530408 · 发表于 2012-7-15 05:45

royalk 发表于 2012-7-15 01:33
那么首先对你70楼的计算中部分内容提几个问题
一是从我的测试来看Intel的超线程效率达不到50%，为何你以5 ...

一是从我的测试来看Intel的超线程效率达不到50%，为何你以50%来计算另外1055T为何又因为“效率原因”相当于4.6个点来计算这个提问非常好你的观查很仔细,也非常好这点是正确的.按照超线程效率的算数的理论计算极值是要有封顶的，至多是0.382，也就是说超线程效率达不到50%，但是你是否考虑到INTEL的编译器的作用，你去看大话处理器一书的P193页，支持其编译器对相同代码能提高10%的效能，若按超线程效率1.35X1.1=1.485，约等于1.5。其实编译器对相同代码能提高10%的效能可能还略强。解释了前一个问题，后一个就好讲了。为何按4.6个算X6 1055T，数学有个黄金分割率，很多人只知道0.382，但是很多人不知道1-0.382/2=0.809也是黄金效率指数。再考虑其在编译器略有5%的不足即6X0.809X0.95=4.611
   1. AIDA64的算法是多少位的浮点运算？
   这个一般取决于算法项目的精度，如FPU Julia 利用朱利亚碎形几何运算，来评估CPU的单精度（32bit）浮点运算能力。FPU SinJulia利用修改过的朱利亚碎形运算，来评估CPU的延伸精度（80bit）浮点运算能力。FPU Mandel，以Mandelbrot碎形几何运算测试双精度（64bit）浮点能力。
这个问题本人也在考虑。只能谈自己不成熟的看法。可能取决于操作系统的版本。你这一问反而提醒了本人思考的一个问题windows8和xp下AIAD64的差异问题。多谢你的提问。
2. AMD的K10/推土机，我们知道CPU-NB和主频是不同频率，CPU-NB频率变化，会直接影响内存写入数值，并且这个影响基本上是线性的，这个该如何解释？
   这个问题似乎不是这样的，好像与除法器及指令集相关度最大，本人做了相关度分析，发现关系到频率的因素没有呈现纯线性相关的规律，现将实测的内存写入附上看你是否提出规律的关联：
   内存写入
Core i7-2600          3400 MHz    18438 MB/秒
Core i7-3960X Extreme 3300 MHz    15095 MB/秒
Core i7-990X Extreme 3466 MHz    12544 MB/秒
Core i7-965 Extreme    3200 MHz    12064 MB/秒
FX-6100                3300 MHz    9928 MB/秒
Core i5-650          3200 MHz    9555 MB/秒
Xeon X3430             2400 MHz    9417 MB/秒
FX-4100                3800 MHz    9068 MB/秒
Athlon64 X2 Black 6400+ 3200 MHz 8836 MB/秒
Sempron 140          2700 MHz    7506 MB/秒
Core 2 Extreme QX9650 3000 MHz    7052 MB/秒
Phenom II X6 1055T    2800 MHz    6895 MB/秒
Xeon E5462             2800 MHz    6711 MB/秒
A8-3850                2900 MHz    6387 MB/秒
Xeon X5550             2666 MHz    6341 MB/秒
Phenom II X4 Black 940  3000 MHz    5828 MB/秒
Athlon64 X2 4000+    2100 MHz    5711 MB/秒
Pentium EE 955       3466 MHz    5608 MB/秒
P4EE                   3733 MHz    5592 MB/秒
Core 2 Duo P8400       2266 MHz    5362 MB/秒
Core 2 Extreme X6800 2933 MHz    4853 MB/秒
Core 2 Extreme QX6700 2666 MHz    4838 MB/秒
Atom D2500             1866 MHz    4685 MB/秒
Opteron 2210 HE       1800 MHz    4452 MB/秒
Pentium D 820          2800 MHz    4232 MB/秒
Xeon                   3400 MHz    4177 MB/秒
Athlon64 3200+       2000 MHz    4106 MB/秒
Opteron 248          2200 MHz    3800 MB/秒
Opteron 2378          2400 MHz    3785 MB/秒
Celeron 420          1600 MHz    3629 MB/秒
Opteron 2431          2400 MHz    3581 MB/秒
Phenom X4 9500       2200 MHz    3259 MB/秒
Nano L2200             1600 MHz    3157 MB/秒
Atom 230             1600 MHz    2816 MB/秒
Celeron D 326          2533 MHz    2770 MB/秒
Opteron 2344 HE       1700 MHz    2491 MB/秒
Xeon 5140             2333 MHz    2443 MB/秒
Sempron 2600+          1600 MHz    2342 MB/秒
Xeon L5320             1866 MHz    2322 MB/秒
Opteron 240          1400 MHz    2038 MB/秒
E-350                1600 MHz    1661 MB/秒
我的职责不是研究数据，而是把研究结果用最通俗的话来告诉大家，在一篇文章中钻研太深会降低我文章的受众面，这是我需要权衡考虑的问题，因此我在这篇文章本打算是对比一下基于系统变化而对推土机的性能造成什么影响，并且我认为结论并无大问题。但我这篇文章没有写得很深，并不代表我不愿意追求更高深的知识。
关于这点谈一下个人的看法。最通俗的话来告诉大家决不会因钻研太深会降低文章的受众面，举个例子，哥德巴赫猜想可谓世界难题，但是解释它只用一个小学生的公式即可1+1=2。当然这里的1+1=2的含义与小学生的公式的本意风马牛不相及。

kobe327292007 · 发表于 2012-7-15 10:51

可怜AMD，短时间内是翻不了身了，不知道还能否再现K7 K8时代低频高效的辉煌。

折旧 · 发表于 2012-7-15 10:54

ly530408 发表于 2012-7-14 22:52
不是的,本来这篇研究的结果还须验证,你要看就不仿先给出结论部分.
究竟是什么原因导致单位 ...

看了我总结一下
你是想说现在AU的浮点运算能力不行但是以后是用显卡补上的因为显卡很强大以后是CPU和GPU一起运算的天下
我说一下个人观点 A这个长远目标是建在APU基础上的因为目前软件支持不力性能发挥不出来
I 的U就是显卡不强所从目前还是以CPU为重点加强运行效率

royalk · 发表于 2012-7-15 11:30

ly530408 发表于 2012-7-15 05:45
一是从我的测试来看Intel的超线程效率达不到50%，为何你以50%来计算另外1055T为何又因为“效率原因”相当 ...

不知道你注意看没有AIDA64的内存benchmark是单线程运算。

FX-6100 3300 MHz 9928 MB/秒
FX-4100 3800 MHz 9068 MB/秒

就光拿这两个来说，麻烦帮确认一下FX-6100的CPU-NB频率是不是2.2GHZ，而FX-4100的CPU-NB频率是2.0GHZ。是的话那你还得再回头考虑一下我的第二个问题。
我说的不是主频，而是CPU-NB频率。当然仅针对CPU频率和IMC频率异步的处理器而言，像Nehalem也有类似情况。
而SNB/SNB-E/IVB则跟主频同步，主频提升内存写入线性提升。

PS：证明1+1=2不是什么人都感兴趣的，至少论证过程看不懂的人比看得懂的多。

royalk · 发表于 2012-7-15 11:31

折旧发表于 2012-7-15 10:54
看了我总结一下
你是想说现在AU的浮点运算能力不行但是以后是用显卡补上的因为显卡很强大 ...

他的意思是在DX10之后支持并行运算的游戏浮点运算能力中CPU的浮点运算能力占的权重很小，因此导致CPU的差异在游戏fps差异上反映几乎没有，这点是说得通的。但我认为CPU浮点计算能力部分也是忽视了线程调度问题和抢浮点资源问题得出来的理论结果，并未考虑实际情况。另外目前的浮点运算是否支持两个128bit的FMAC，这个还得看情况而定，大多数是不支持的。并且这并不有碍于推土机本身CPU性能还是偏弱一点的结论，只是在游戏中这个弱势可大幅缩小罢了。

ly530408 · 发表于 2012-7-15 13:20

royalk 发表于 2012-7-15 11:31
他的意思是在DX10之后支持并行运算的游戏浮点运算能力中CPU的浮点运算能力占的权重很小，因此导致CPU的差 ...

你的理解是正确的.在对浮点的运算时当计算量极大时,CPU的浮点运算的权重下降,因此对DX10以后的游戏CPU的影响作用下降.但是你提到但我认为CPU浮点计算能力部分也是忽视了线程调度问题和抢浮点资源问题得出来的理论结果，并未考虑实际情况。其这个问题已在DX9中有了充分的说明.本来在公式中想对DX9的计算时加大CPU浮点的计算权重,但是带到公式验证不符,故略去.关于你提出的忽视了线程调度问题和抢浮点资源问题实际上本人亦做了模型但是由于GPU的浮点权重太大带带到公式几乎可以忽略.如果GPU用HD7970的浮点运算能力为4.7TFLOPS,则几乎可不考虑CPU的浮点运算能力0.107TFLOPS而在DX9的模式中实际是假定CPU的线程调度问题和抢浮点资源的运算具有优先权的.举个形象的例子说明,1000斤大豆,有人可一次搬200斤,其中一次可搬200斤有两人,而其余每人可搬100斤.因此搬这两个搬200斤一次搬了400斤,而剩余的600斤是六个人搬的.而前两人搬的重量为40%,后六人搬的重量为60%实际近乎接近了.但是假定100000斤大豆,有人可选择最佳的路程和手段作到一次搬200斤,其中一次可搬200斤有两人而其余每人按一般的路程和手段作到可搬100斤.因此搬这两个搬200斤一次搬了400斤,其余的99600由后996人搬,则前两人搬的重量为0.4%,后996搬的重量为99.6%.此时的线程调度问题和抢浮点资源都具于相对次要的地位.

ly530408 · 发表于 2012-7-15 13:27

折旧发表于 2012-7-15 10:54
看了我总结一下
你是想说现在AU的浮点运算能力不行但是以后是用显卡补上的因为显卡很强大 ...

你的理解基本正确.给你一点本人的看法:
以上着重谈了推土机下面再谈一下APU
1.APU的发展是CPU方展到一定时期的不可超越的阶段.
人们在IT的发展过程是一个由低级向高级的进化过程.由分立原件向集成原件转化的过程.人们
在IT之初生产的器件都是分立的，随着工艺的进步，人们发现集成化可以产品的效能即通过产品
的综合和系统集成可使其产生1+1大于2的效用。举例说明，当年的米格25，它的各项单个技术不
是顶尖水平的，但是前苏联的科学家通过系统集成造出当时称雄天空的一代名机米格25。人们对
CPU和GPU的发展过原来是各自分立发展的.但是人们发现CPU在通用计算的简单大数据流量处理上
弱于GPU,而GPU在通用计算的复杂的数据运算,逻辑推演,分支判断远不及CPU.因此CPU尺有所短,
GPU寸有所长,而AMD发现两者在通用计算方面可以互补.具体的就是通过CPU在通用计算的复杂的
数据运算,逻辑推演,分支判断的强大的能力,去进行通用计算的复杂数据的的处理,并指挥GPU对简
单大数据流量处理快速处理.这只不过是APU运算的第一步进化,即各自分工发挥所长,提升效力,第
二步是提升CPU对在通用计算的复杂的数据运算,逻辑推演,分支判断的分解能力,将复杂的数据分
解为可为GPU处理的简单大数据流量,而此时进步提升GPU处理的简单的数据的能力和运算速度.以
加强APU的运行能力.第三步就是运用分布式并行计算理论,神精网络理论,遗传算法理论,IA智能算
法和P和PN的理论,对APU进行全新的再构造,并发挥其强大的CPU复杂的数据运算,逻辑推演,分支判
断的强大的能力,和GPU高速的简单大数据流量的处理能力,逐步完成APU对数据处理和运算的人工智
能的推进.具体的说APU的发展可分为三个阶段.初步融合.架构提升,人工智能.AMD的第一代和第二
代才开始进到初步融合的阶段.离后续目标还很遥远.但它迈出了坚实的第一步.
2.APU的发展有数学理论做依据
各种软件都说明在运用异构同步计算时HC Benchmark的软件测试说明AMD的APU胜过INTEL的I系
列的核显处理器.而EWSA也说明了这样的问题,因而有许多用I系列的核显处理器的人不服气,认为这
是AMD的GPU的功劳.AMD此时就应该指出为什么会出现这样的结果,其原理是什么.其实这里包含了严
格的数学定理.也就是说INTEL的I系列的核显处理器只要在GPU落后于AMD的GPU的条件下,是没有办法
在异构同步计算的条件下战胜AMD的APU的.
现在给出严格的证明.
设K1为CPU,K2为GPU,由于CPU和GPU同时工作并且有.即K1*K2=1.
现在设INTEL的I系列的核显处理器中的CPU的效率为CPU的基准分为1,
I系列的核显处理器中的GPU的效率的效率为GPU的基准分为1,因为INTEL的I系列的核显处理器
中的CPU在K1*K2=1.即其同在一个封装的处理器工作时,由于其不是融合的异构同步计算的,故其计
算综合基准分为K1*K2=1*1=1.
现在设AMD的APU中的CPU的基准分为INTEL的I系列CPU的效率的80%,(实际CPU差距没有这么大)
即AMD的APU中的CPU的K1小于INTEL的I系列的CPU的K1,而即AMD的APU中的GPU的基准分为INTEL的I系
列GPU的效率的两倍,(实际GPU差距远超过这么大)即AMD的APU中的CPU的K2大于INTEL的I系列的CPU
的K2由于其是融合的异构同步计算的
有人会说为什么不用AMD的APU中的CPU,GPU做基准分,因为INTEL的I系列的核显处理器是非融合
的异构同步计算的故取其为基准分.如果不服气,可采用加权平均计算法或乘数计算法.从简单的乘数
计算法:
I系列的核显处理器的基准分=1X1=1
AMD APU处理器的基准分=0.8X2=1.6
则APU与I系列的核显处理器效能=1.6/1=1.6.即APU的至少数据处理能力是I系列的核显处理器
的1.6倍.正是基于以上的原因,INTEL即便是在GPU的水平上与AMD有巨大的落差,也要在其的CPU中
集成核显,其目的有两个其一是通过对核显的不断的开发缩短与AMD在CPU中的巨大的落差,其二是摸
索CPU和GPU的异构同步的运算能力的融合规律.然而在GPU的水平上与AMD有巨大的落差是短时间无法
缩短的,因为如上面所说的GPU的游戏规则是由AMD,NVIDIA,微软通过DX指令集来定义的,因此由CPU的
规则的制定者,转变为GPU的规则的应用者,这点区别是显而易见的.
3.APU的实际的测试成绩和应用实践证明了数学理论的正确度.
而HC Benchmark的软件证明了这点.HC Benchmark是中国计量科学院最近才开发完成的，全球第
一款真正的异构计算基准测试工具，能够真正同时调用CPU、GPU资源，可以说是为APU量身打造的。
　　这个工具的测试有办公应用、视频体验、上网体验、游戏体验四部分，可自由选择进行测试，完
成后给出四个子分数和一个总分数。如果系统中有APU这种异构系统，程序就会自动为CPU、GPU分配
计算任务。如果说GPU不支持加速计算，就会全部交给CPU执行。
在该测试的四个子项中:
   测试项目测试品牌测试成绩
      办公: APU A8 3850 4393
            I5  2300    697
      视频: APU A8 3850 3391
            I5 2300    3325
      上网: APU A8 3850 6033
            I5 2300    2587
      游戏: APU A8 3850 6707
            I5 2300    2587
      总分: APU A8 3850  21125
            I5 2300    8029
   在APU的测试过程中可以清楚地看到计算任务在CPU(蓝色方块)、GPU(橙色方块)之间的分配，
而且会根据计算性质的不同为合适的硬件分配适量的任务。从成绩看，双显加速情况下的成绩比
APU单显、6670独显分别高出62％、12％，效率还算可以。Core i5-2300因为无法利用GPU加速，
只能将所有任务交给缓慢的CPU，结果自然和APU无法相提并论，总分刚刚超过8000，还不到APU的
四成，APU双显交火后更是可以达到其4.3倍。各个子项目中，只有视频体验部分能够接近APU
，其它都差距甚远。
以上是HC Benchmark的测试结果.摘自
从最强集显到融合加速：A8-3850 APU完全评测
来源：驱动之家作者：上方文Q 2011-07-21 17:44
同样来自该文谈到的另一项测试:APU加速计算测试：SiSoftware Sandra
老牌系统检测、测试工具SiSoftware Sandra近日刚刚发布了最新的2011 SP4升级包，版全面
加入了对AMD Fusion APU处理器的支持。现在不仅可以完善检测APU系统的规格参数，基准性能测
试模块也做了相应更新，通用目的测试环节中的运算性能、加密性能、内存性能三个环节都可以对
APU进行考察。它的通用目的基准测试是基于OpenCL标准的，因此能够同时调动APU处理器中的CPU、
GPU资源，并根据它们的处理能力不同而自动分配计算任务。如果系统内还有独立显卡，不管是A卡
还是N卡都能加入基准性能测试。
首先是OpenCL运算项目，A8-3850单独使用CPU的话要比Core i5-2300弱不少，但是GPU部分明
显强大得多，CPU+GPU联合之后更是遥遥领先，成绩为423亿次浮点每秒、1.09亿次像素每秒，是
Core i5-2300的1.9倍。具体成绩如下:
测试项目测试品牌测试成绩
平均Shaber(十亿次浮点每秒/GFlops) A8 3850 CPU    7.8
平均Shaber(百万像素每秒)                            20
平均Shaber(十亿次浮点每秒/GFlops) A83850 GPU    37.55
平均Shaber(百万像素每秒)                         96.56
平均Shaber(十亿次浮点每秒/GFlops) A8 3850 CPU+GPU 42.3
平均Shaber(百万像素每秒)                         108.78
平均Shaber(十亿次浮点每秒/GFlops) I5 2300       14.52
平均Shaber(百万像素每秒)                         37.34
其次加密带宽测试
测试项目测试品牌       测试成绩
加密带宽
         A8 3850 CPU    372
         A83850 GPU       1260
         A8 3850 CPU+GPU 1160
         I5 2300          599
加密带宽测试出了点儿问题，CPU+GPU联合之后的成绩反而降低了，看来Sandra对这种架构的
支持还有待进一步完善。
   其三内存性能
   测试项目
   内存性能 A8 3850 CPU    6.81
            A83850 GPU    5.52
            A8 3850 CPU+GPU 11.15
            I5 2300       12
   Fusion APU的设计理念对内存提出了相当高的要求，而且受到了现有技术的一些制约。通过
本次测试可以看出，APU无论单独CPU还是单独GPU的内存带宽都不是很高，联合之后才基本接近
Core i5-2300的水平。
   综上所述可知以下两点:
   1)APU在CPU和GPU的融合后将使异构同步的运算的效能大幅度提升.从实践上证明了数学推导的
正确.
   2)APU在CPU和GPU的融合后对软件的支持提出了新的要求,只有在完善的软件的支持下APU的功能
才可能有质的提升与发挥. 要向市场转化就要软硬并重.AMD长期以来的一个弱项就是硬件超前,支持
的软件滞后.K8的HT总线,64位处理器架构,双核处理器架构,CPU内存控制器,K10的多核处理器架构,融
合芯片的APU,推土机CPU,都无一例外的遇到这样的问题.现在AMD已开始注意这方面的问题.尽快开发
出便于硬件运行的软件包是其重要任务.AMD发布新版加速计算开发包APP SDK 2.6的发表明显反映其
对软件的关注度.
4.APU将完成由标准的执行者项标准的制定者的转身.
在商界有句名言:一流企业做标准.
所谓的做标准在某种意义上说就是制定产品制造的规范,制定产品生产和市场销售的游戏规则.长
期以来在X86的处理器架构的领域中,英特尔用其在X86的处理器架构中相对强势的地位,给出了X86的
处理器的长期发展的标准模式及相应的CPU的指令集的规范.因而导致PC业界的基本上是以INTEL的X86
架构的指令集来统一PC配件的标准和规范.AMD曾经有过多次领先的创新,如CPU的三级缓存L3在K6-3的
利齿上的应用,K7价构提出效率为先原则,K8的HT总线,64位处理器价构,双核处理器架构,CPU内存控制
器,K10的多核处理器架构,融合芯片的APU.可是为什么没从根本上取的市场的绝对多数的份额.其根本
原因就是AMD的技术上的突破最终还是要通过INTEL的X86架构的指令集来实现.AMD现在通过APU的架构
完成了一个质的飞跃.过去衡量CPU的标准规范是CPU的X86的处理器架构的指令集,而APU的架构的出现
,是CPU的X86的处理器架构的指令集,仅是APU架构的指令集的一部分,而且CPU的X86的处理器架构的指
令集要向APU架构的指令集靠拢,否则将无法充分发挥APU的功能.而AMD APP SDK 2.6的发布说明AMD逐
步推广APU和推土机架构的标准.其实类似AMD的APU架构英伟达也在做.所不同的是由于英伟达没有X86
架构处理器的专利授权,而且没有对X86的处理器架构的研发经验,故另辟蹊径,用ARM架构的处理器和
其的显卡组成，英伟达做成了类似APU架构的ARM结构的处理器.而且在平板电脑市场做的风生水起.
AMD和英伟达都在做一件相似极高的事,即通过类似APU架构的处理器确定其在业界的技术标准,所不同
的是AMD面对的是X86的处理器架构的市场,即传统的PC市场,而英伟达面对的是ARM的处理器架构的市
场.既新兴的移动设备市场.两个企业不约而同的逐步脱离以纯依赖CPU,或GPU的局面,而走向两者融合
的新道路和业界的规范.
5.APU是未来发展的长远战略.
我国有句名言:不谋万世者不足以谋一时,不谋全局者不足谋一城.
由于未来云计算的发展,个人计算机未来在云运行的网络中更多的是起数据上传与接收的作用.
这了说明APU才是未来的方向.AMD今年二季度据说推出第二代APU.功能强过一代50%以上.AMD实际
上采取的是两翼齐飞,中间突破的发展战略AMD现在是两手抓,推土机及后续品种解决CPU的架构和效率
的研制问题显卡则解决GPU的通用计算.和并行运算的结构问题,这是两翼,而APU则是在推土机及后续品
种解决CPU的架构和效率的问题后,显卡解决GPU的通用计算.和并行运算的结构实际应用问题后,着重解
决GPU与CPU的融合的.大家可以看第一代APU用的是K10.5的CPU和6XXX系列的GPU,英特尔的CPU游戏上不
借助外接独立显卡已无法应对,今年二季度推出的第二代APU,将是推土机架构的CPU与7XXX系列的GPU.
英特尔的CPU游戏上不借助外接独立显卡,与APU的距离将会进步拉大.