从数学的角度看推土机CPU之五

ly530408 · 发表于 2012-7-20 16:32

通过以上的分析可以看出AMD坚持采用推土机架构是合理和科学的它反映了今后CPU和GPU的融合的必然趋势。然而AMD的CPU的浮点运算的软肋终究是要补齐的。其补齐的方法不外是以下几条。
1。给CPU设计全新的除法运算器。
据超能网的消息：
地址为：http://www.expreview.com/18614.html
   采用Radix-8除法器，第三代“推土机”架构揭秘
　  按照AMD的规划，“Bulldozer”推土机是第一代模块化CPU，第二代则是Piledriver打桩机，将于今年下半年发布，而且使用了Cyclos半导体的Resonant Clock Mesh技术以提高性能。到了2013年就该“Steamroller”压路机出场了，AMD对它的描述是“Greater parallelism”，强调并行性能提升。
　　有关压路机的架构设计目前还是捕风捉影的阶段，日前AMD研究部门的David M. Russinoff发布的一篇论文中证实了Steamroller将会采用radix-8 SRT浮点模块，每周期运行指令将从目前的radix-4单元的2条提高到3条。Steamroller改变的是CPU中除法器（diyider）单元的设计，有兴趣的可以参考wiki的解释。David M. Russinoff参与了Llano APU的设计，其diy单元与前代K10没有diy硬件支持的设计有所不同，推土机继承了K10的设计，FMAC（浮点累积乘单元）中的除法器功能有限。现在Steamroller的设计类似Llano，当然不会是100%相同，因为它使用的是radix-8而非Llano的radix-4，每周期执行的指令数从2条提高到了3条。对比Intel的前进的步伐，AMD其实还是慢了许多，因为Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了，每周期指令数从原来的2条一下子提高到4条，数据延迟更低，浮点单元以及整数单元都可以从中受益。
分析认为AMD之所以没有采用radix-16而用了折衷的radix-8，是因为模块化结构中FP浮点单元被两个整数单元共享，radix-16过于复杂，成本更高。架构上的设计变化太过学术化，AMD的模块化CPU理念先进，但是第一代CPU表现并不太好，既有工艺上的掣肘也有架构设计上的不足，希望到了Steamroller这一代能更成熟些。
从以上的消息可以看出压路机出台后而此架构一但落实与成功,AMD与IETTL的差距将不复存在.但有人会说Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了.每周期指令数从原来的2条一下子提高到4条.你的效率还是低25%.可是大家不要忘记AMD的CPU是双核心组合模块新架构,2 X radix-8=2X3=6.效率将6/4=1.5=150%.
   2。通过硬架构实现CPU、GPU统一寻址，充分调用GPU的强大的通用计算和浮点运算的能力.而随着第三代的APU的CPU、GPU统一寻址，则,AMD与IETTL的差距也将不复存在。
现在看一条消息：
AMD包圆核心硬件?索尼PS4规格最新传闻
相关专题：新闻时间：2012-05-29 05:41 来源：和讯网
我们知道，AMD已经确定为索尼PS4提供从处理器到图形芯片一揽子解决方案。
今天，网上又泄漏了据称是索尼PS4的硬件规格，下面让我们来先睹为快。
索尼PS4研发代号Orbis，发布日期2013年圣诞节前后。处理器采用AMD 28nm 64-bit Kaveri，4个Steamorller核心，8个线程，512个流处理器，1TFLOPS计算能力，用途为通用计算（物理，AI，动画等等）。
PS4图形系统采用AMD 28nm GPU，基于Pitcairn，GCN架构，1280(1D)个流处理器，计算能力大2.5TFLOPS。
PS4配备4GB共享内存，500GB内置硬盘，蓝光驱动器。
这条消息如果被证实,则包含了巨大的信息量.极为重要.
   1)首先反映了AMD的第三的APU的架构预研已经结束.即将转到流片的前期准备工作,否则到明年才开始准备流片的前期准备工作,时间及生产部署根本来不及.
2)其次反映了AMD的第三的APU的架构的达到了预期的技术指标,满足PS4的技术架构的整体要求。首先从APU的浮点运算能力和通用计算已达到1TFLOPS计算能力，用途为通用计算（物理，AI，动画等等）。这说明了个题，即有要么是CPU的浮点运算有了大幅度的提高，要么是CPU和GPU的融合性能有了质的飞跃。即加入的RISC微型处理器对CPU核心、GPU各线程进行实时动态调度，大大克服了目前推土机所存在的线程调度问题，将软件级线程调度（操作系统调度）提升到硬件级别，开放式异构计算架构 HSA使性能提升达到了非常强劲的地步。或者两者兼而有之。
3)PS4图形系统采用AMD 28nm GPU，基于Pitcairn，GCN架构，1280(1D)个流处理器，计算能力大约2.5TFLOPS。它说明了Pitcairn，GCN架构的显卡的架构的巨大的浮点和通用计算能力在游戏中将有出色的表现。并该显卡与APU中的GPU组成双显卡的CF体系将使整机的浮点和通用计算能力达到或大幅度的超过1TFLOPS+2.5TFLOPS=3.5TFLOPS的浮点和通用计算能力。
4)CPU的浮点运算的架构有了质的改进。
以上的推断是否正确呢？最近硬派网的消息如下：
28nm工艺第三代APU—Kaveri规格预览
来源:wccftech 【编译】 2012-07-05 作者:王磊责任编辑:王磊
尽管桌面版的Trinity还没发布，但AMD已经计划好将于明年推出28nm工艺、架构为Kaveri 的第三代APU，以取代32nm工艺Trinity的位置。
Kaveri APU将具备2~4个Steamroller（压路机）核心，其中四核款的TDP将为100W。同时，Kaveri将支持DDR3-2133MHz内存，具备4MB三级缓存，而接口将继续使用Socket FM2。
GPU方面，Kaveri将采用GCN架构的HD8000系列显卡，规格最高的版本将具备384个流处理器，而性能预计将接近HD7750。此外，Kaveri也将支持双显卡混合交火、Turbo Core、Blu-ray 3D、AMD –V、UVD 3.2、Direct Compute以及OpenCL等技术。
另外来自驱动之家的消息如下：
APU明年实现真正的CPU/GPU统一寻址
2012-06-13 16:28:44作者：上方文Q 编辑：上方文Q
AMD一直宣传Fusion APU不仅仅是CPU、GPU的简单物理整合，更是深层次的融合，而实现这种融合的关键之一就是CPU、GPU的统一内存空间寻址。经过Llano、Trinity的两代铺垫之后，明年的Kaveri将最终完全实现这一梦想。
彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。
对于开发人员来说，统一寻址意味着更少的参数、更少的调试、更简单的接口，自然能大大减轻编程的负担。
还有消息确认，Kaveri APU的CPU部分将会是“压路机”(Steamroller)，仍然是推土机架构但会解决目前打桩机架构中的几个重大问题，基本展现推土机应有的实力，GPU部分则是真正的GCN架构，不像Trinity那样是VLIW4架构加上Radeon HD 7000系列的部分特性综合而成。至于是不是每个核心都会有自己的浮点单元和指令调度器，CPU、GPU是否能共享三级缓存，封装接口会不会再次改变，现在都还不能确认，从可能性上看后两个比较大，而前者概率很低。
Intel Haswell也将在明年继续大幅提升图形性能，最多40个计算单元，三级缓存共享也早已实现，但不会有统一内存寻址，并行计算虽然支持但不可能有太好的表现。
另外，AMD还在AMD Fusion开发者峰会上宣称，APU的历史累计出货量已经超过4000万颗，十二大OEM厂商中有十一家都采纳了APU，Llano APU在AMD移动平台上的普及率已达60％。
从以上的报道证实作者的推断的正确度.
   3.通过编写OpenGL的软件，实现CPU对GPU运算能力在底层的调用，以充分发挥GPU的强大的通用计算和浮点运算的能力。这一项的实现是未来AMD可能为购买新一代的GPU发放的一项福利。
   这项福利的发放会有三种情况:
   1）AMD自己通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。
   2）主板厂商通过充分研究，并且与AMD的合作，完成编写主板的固件程序来完成CPU对GPU通用计算和浮点运算的能力的调用，以强化CPU浮点运算的能力。这即是主板厂商综合实力的体现，也是未来主板差异化战略的重大商机。
3)软件厂商通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。为自己的产品开辟新的商机。
也就是说当前买了推土机架构的CPU，以后可能通过购买AMD的显卡及附属的驱动软件来调用GPU的强大的通用计算和浮点运算的能力，实现CPU功能的提升。
对第三方的主板商或软件商来说这是一个稍纵即逝的战略商机，如果AMD一旦腾出手来机遇也就不复再来。同样的问题和解决思路亦可用于INTEL的CPU和NVIDIA的显卡上。但是当这两家也发现此商机，实现专断开发时，就不会再有此商机。
最后回答几个重要的问题：
   1 为什么说是L1或L2或L3的缓存配置不当所致，或说是内存控制器落后，或是说是分支预读取和判断落后所致推土机架构效率低，都是错误的分析。
   答:这可从以下的分析得出结论.
   这是I7 2600K 和FX-8150 的CPU缓存及内存控制器,指令集对照 .
品牌          I7 2600K                            FX-8150 CPU
项目
L1             一级数据缓存 4 X 32KB          一级数据缓存 8 X 16KB
            一级指令缓存 4 X 32KB             一级指令缓存 4 X 64KB
L2             二级缓存 4 X 256KB                二级缓存 4 X 2MB
L3             三级缓存 8MB                         三级缓存 8MB
指令集 MMX，SSE（1，2，3，3S，4.1， x86, x86-64, MMX, SSE
            4.2），EM64T，VT-x，AES，    SSE2, SSE3, SSSE3, SSE4.1,
            AVX ，FMA                                        SSE4.2, SSE4A, XOP, AES, AVX
                                                               , FMA4
内存控制器    双通道DDR3 1333             双通道 DDR3 1866
   常言说的好,有比较才有区别,才可以分析问题的所在.
   1)从以上的数据看AMD的推土机的一级缓存不仅不低于I7 2600K的一级缓存而且还高于I7 2600K的一级缓存,首先看AMD的推土机的的架构是FX-8150是四模块八核心,一级数据缓存 8 X 16KB=128KB.而I7 2600K 4 X32KB=128KB 两者打了个平手,FX-8150一级指令缓存 4 X 64=256KBI7 2600K一级指令缓存 4 X 32KB=128KB ,也就是在指令处理上FX-8150较I7 2600K更具备优势.另外可以说的是两个CPU的L1的16K比一个CPU的L1 32K更快更有效率。这在算法上可给出严格的证明。但是它要涉及到算法调度优先级的判断和选用。你如果找到MIPS处理器设计透视，ＣｅｌｌＢＥ处理器编程指南，大话处理器就知道了。可能你会问Ｘ８６的架构关乎MIPS处理器什么关系，可是你看了大话处理器Ｐ７１页的ＲＩＳＣ时代就知道ＣＩＳＣ指令集的Ｘ８６指令集先被解码为类似ＲＩＳＣ指令的微操作。以后的指令采用ＲＩＳＣ的内核。这是ＩＮＴＥＬ的Ｐ６架构确立的。这点一直延用至今。
2)从二级缓存看 FX-8150 4 X 2MB 而I7 2600K 4 X 256KB 这意味着CPU在一级缓存没有命中时,FX-8150 可以比I7 2600K 有更大的二级缓存来提高命中率.
3)从二级缓存看两者无区别.
4)在分析了一,二,三缓存后分析以下内存控制器FX-8150双通道 DDR3 1866,I7 2600K 双通道DDR3 1333 两者强弱不言自明.
   5)最后看一下CPU指令集 FX-8150 x86, x86-64, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, SSE4A, XOP, AES, AVX, FMA4,I7 2600K MMX，SSE（1，2，3，3S，4.1，4.2），EM64T，VT-x，AES，AVX ,FMA，I7 2600K 有的指令 FX-8150 全有,I7 2600K 没有的指令,FX-8150 也有,FX-8150 的指令集比,I7 2600K 指令集更丰富.
   通过以上的分析在CPU了一,二,三缓存,内存控制器,指令集上 FX-8150 全面领先.可是FX-8150 在整数运算的表现说明了这点.
   2.为什么说不是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的主要原因.
   答:对照FX-6100与X6 1055T的内存写入即可说明.
   FX-6100  内存写入9928MB/秒
X6 1055T 内存写入6895 MB/秒
9928MB/秒/6895 MB/秒=1.43
这个运算结果也反驳了是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的说法。
3.既然浮点运算器是INTEL和AMD的CPU浮点运算差距的主要原因.为什么AMD不立即推出radix-16除法器.
   答:提升除法运算器的浮点运算能力不是一个简单的事,否则AMD早就推出radix-16除法器了.因为ＩＮＴＥＬ在２００６起采用radix-16除法器，而AMD据超能网的消息压路机的架构采用的还是radix-8除法器,而不是radix-16除法器.，它涉及到算法调度，要知道从每周期指令数从原来的2条一下子提高到4条涉及的算法难度决不是提高一倍的概念，要提升几十个或数百个数量级。难度极大。
此外AMD亦希望通过CPU对GPU的调用来弥补CPU的浮点运算能力偏弱现状.随着彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。此时CPU的浮点运算能力偏弱现状将不复存在.
4.既然可以通过CPU调用GPU的通用计算和浮点运算的能力为什么不立即采取相应的措施?
答:
   1)首先从硬件层面上完成要有赖于彻底实现统一寻址,CPU、GPU之间就可以有通用的用户调用，并共享数据而这一步尚待进一步完善.
   2)从软件层面上完成要有赖于对相应的硬件架构的软件代码的全面地编写,和相应的验证过程.
5.既然可以通过CPU调用GPU的通用计算和浮点运算的能力为什么还要设计新的radix-8除法器
答:根据数学公式和实际的运算都证明了CPU与GPU相比在小容量的通用计算和浮点运算中具有极大的优势.其运算速度更快.而最直接和最快的实现CPU的在小容量的通用计算和浮点运算中的能力就是设计新的radix-8除法器,尽快提升CPU的在小容量的通用计算和浮点运算中的能力.
      以上是自己的一些研究的心得，可能有不对之处，仅供参考。

powerjava · 发表于 2012-7-20 17:46

全部看完了.........
其中不少的内容在其他地方看到过,不知道是不是作者以前写的.

ly530408 · 发表于 2012-7-20 17:54

powerjava 发表于 2012-7-20 17:46
全部看完了.........
其中不少的内容在其他地方看到过,不知道是不是作者以前写的.
...

全部文章是本人原创的，有部分作为帖子发表过，但是完整的这是首发。希望你多提意见。

ly530408 · 发表于 2012-7-20 17:58

powerjava 发表于 2012-7-20 17:46
全部看完了.........
其中不少的内容在其他地方看到过,不知道是不是作者以前写的.
...

但是引用的部分不是本人的，这里特此声明。并在此对引用文章的作者致谢。

nighttob · 发表于 2012-7-20 20:21

全看完了，眼睛很累，需要放松一下……

简单总结一下就是，AMD在下很大一盘棋。但是我真怀疑AMD能不能有时间和钱把棋下完。

ly530408 · 发表于 2012-7-20 20:47

nighttob 发表于 2012-7-20 20:21
全看完了，眼睛很累，需要放松一下……

简单总结一下就是，AMD在下很大一盘棋。但是我真怀疑AMD能不能有时 ...

不好意思由于格式问题使你受累了，现在本人担心的是INTEL能否尽快明白时不我待，一旦APU真成了规范，赶起来就难逆转了。特别是显卡的差距太大了。

nighttob · 发表于 2012-7-20 20:51

ly530408 发表于 2012-7-20 20:47
不好意思由于格式问题使你受累了，现在本人担心的是INTEL能否尽快明白时不我待，一旦APU真成了规范，赶起 ...

我是不担心Intel，即使不是像APU这样融合计算，Intel也已经有了可以实用的MIC架构可用。
而且最关键的就是Intel现在有钱……

当然我是外行，只懂用。原理什么的，大概知道一点，出于兴趣。真让我去预测、去分析，有头有脑的，这我干不来。能用上满足自己需求的硬件就行。

ly530408 · 发表于 2012-7-20 20:57

nighttob 发表于 2012-7-20 20:51
我是不担心Intel，即使不是像APU这样融合计算，Intel也已经有了可以实用的MIC架构可用。
而且最关键的就 ...

你要知道逆水行舟不进则退。群雄环立，岂有松懈之理。

jianghongwei · 发表于 2012-7-21 09:47

ly530408 发表于 2012-7-20 20:47
不好意思由于格式问题使你受累了，现在本人担心的是INTEL能否尽快明白时不我待，一旦APU真成了规范，赶起 ...

我也一直认为intel的战略上有问题，amd的战略领先太多了，可论坛的小白就知道玩游戏，现有的游戏都是什么时候开发的？能并行计算？拿这个说事too simple......

况且并行计算的软件开发，到现在都没有建立一个统一的标准.....

Mufasa · 发表于 2012-7-21 10:11

数学不及格的飘过。。。。

AMD根本就没有什么战略。
卖掉芯片厂，这就是最大的失败。

Intel 玩工艺都把AMD玩死了。
从这一次 IVY Bridge 就可以看出来，Intel 本来有能力大幅提升主频。
却没有提升主频，而是想到了偷工减料，Die 散热用硅脂。
主频停滞不前，TDP下降很多。

至于异构运算，这个都吹了几年了吧。
Intel 就算对这玩意没兴趣，也会开发一些对应的技术。

另外在高端并行计算方面，Intel 的 XeonE7系列可是领先了很多的。
而且后面还有个一直不算成功的IA64架构安腾处理器。

把棋下得太大太慢，却让对手看清楚了你一步一步怎么走。
即使是好棋，也没有意义。

Mufasa · 发表于 2012-7-21 10:22

另外关于缓存调度，楼主的观点我不认同。

推土机巨量的二级三级缓存事实证明并不成功。
二级缓存延迟高，
三级缓存延迟更高，命中率也低。

更要命的是缓存调度体系

Intel 在Core i 系列架构中引入了L3完全包含L2数据的缓存调度体系。
这样当一个核心在自己的缓存中找不到数据时，只需要到L3当中检索即可。

AMD这一代推土机的缓存调度体系和上一代肥龙没有本质区别。
三级缓存和二级缓存独立，内核寻找缓存数据非常浪费时间。
AMD的三级缓存更加接近北桥的概念，使得集成显卡共享这个缓存更加容易。
但也使得CPU部分从中获取的收益偏低。

jianghongwei · 发表于 2012-7-21 10:30

Mufasa 发表于 2012-7-21 10:11
数学不及格的飘过。。。。

AMD根本就没有什么战略。

你这黑amd黑的有点明显把，就说的太过了.....

amd没战略，能把amd玩死，却要故意降低自己的主频，放竞争对手一马？你比intel 的高层都聪明？

给你个链接，你自己去看看并行计算的内容：http://www.verycd.com/topics/2918502/

ly530408 · 发表于 2012-7-21 10:31

jianghongwei 发表于 2012-7-21 09:47
我也一直认为intel的战略上有问题，amd的战略领先太多了，可论坛的小白就知道玩游戏，现有的游戏都是什么 ...

你看到了问题所在。AMD总结了过去失利的原因：长期以来在X86的处理器架构的领域中,英特尔用其在X86的处理器架构中相对强势的地位,给出了X86的处理器的长期发展的标准模式及相应的CPU的指令集的规范.因而导致PC业界的基本上是以INTEL的X86架构的指令集来统一PC配件的标准和规范.AMD曾经有过多次领先的创新,如CPU的三级缓存L3在K6-3的利齿上的应用,K7价构提出效率为先则,K8的HT总线,64位处理器价构,双核处理器架构,CPU内存控制器,K10的多核处理器架构,融合芯片的APU.可是为什么没从根本上取的市场的绝对多数的份额.其根本原因就是AMD的技术上的突破最终还是要通过INTEL的X86架构的指令集来实现.AMD现在通过APU的架构完成了一个质的飞跃.过去衡量CPU的标准规范是CPU的X86的处理器架构的指令集,而APU的架构的出现,是CPU的X86的处理器架构的指令集,仅是APU架构的指令集的一部分,而且CPU的X86的处理器架构的指令集要向APU架构的指令集靠拢,否则将无法充分发挥APU的功能.而AMD APP SDK 2.6的发布说明AMD逐步推广APU和推土机架构的标准.在商界有句名言:一流企业做标准.所谓的做标准在某种意义上说就是制定产品制造的规范,制定产品生产和市场销售的游戏规则.
   AMD现在从战略出了以下几招：
1.推动异构计算发展成立HSA联盟
   在召开的AMD Fusion开发者峰会 (AFDS)上，全球技术领袖聚集一堂，宣布成立“异构系统架构基金会（HSA Foundation）。异构系统架构基金会是一个非盈利性组织，其宗旨是定义和推广开放的、基于标准的异构计算发展之道，通过提供通用硬件规格和广泛的生态系统支持，使软件开发人员更大程度发挥最新处理器的优势，从而更轻松地完成各种创新应用的开发。
成立HSA联盟就是为了制定产品制造的规范,制定产品生产和市场销售的游戏规则.
2.有条不紊的推进APU的发展战略
AMD对APU采取每年更新一代，架构每年更改一次，包含CPU和GPU。到2013年将初步完成其第二期也是极为关键的一环实现真正的CPU/GPU统一寻址。AMD一直宣传Fusion APU不仅仅是CPU、GPU的简单物理整合，更是深层次的融合，而实现这种融合的关键之一就是CPU、GPU的统一内存空间寻址。经过Llano、Trinity的两代铺垫之后，明年的Kaveri将最终完全实现这一梦想。
彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。
对于开发人员来说，统一寻址意味着更少的参数、更少的调试、更简单的接口，自然能大大减轻编程的负担。
   这样AMD构想的即通过CPU调用GPU的充分发挥GPU的强大的通用计算和浮点运算的能力的目标将最终实现。
   3.AMD目前采取的是AMD实际上采取的是两翼齐飞,中间突破的发展战略AMD现在是两手抓,推土机及后续品种解决CPU的架构和效率的研制问题显卡则解决GPU的通用计算.和并行运算的结构问题,这是两翼,而APU则是在推土机及后续品种解决CPU的架构和效率的问题后,显卡解决GPU的通用计算.和并行运算的结构实际应用问题后,着重解决GPU与CPU的融合的.大家可以看第一代APU用的是K10.5的CPU和6XXX系列的GPU,英特尔的CPU游戏上不借助外接独立显卡已无法应对,今年二季度推出的第二代APU,将是推土机架构的CPU与7XXX系列的GPU.英特尔的CPU游戏上不借助外接独立显卡,与APU的距离将会进步拉大.
   4. AMD在全力发展APU的同时通过推土机及后续品种解决CPU的架构和效率的研制问题也在有条不紊的进行着。
具体的说AMD在推土机的架构上作了以下几点重大的更新：
1）在CPU中强化已有的内存控制器效率提升处理器运算单元执行效率系数。
2）设计高效的一模块双核心的CPU架构。
3）设计更高效的SSSE3/SSE4.1/SSE4.2，AES，AVX，FMA4/XOP。
4）每个单位周期的整数运算指令发射由三发射改为每个单位周期的整数运算指令发射四发射。
推土机的问世后,改变了AMD的CPU在整数运算上的落后局面，在纯整数或整数运算占主导地位的数据时
推土机架构多数处于领先的地位。但是由于除法运算器上的差距，在浮点运算上依旧有差距。但是AMD在
2013年将推出radix-8，是因为模块化结构中FP浮点单元被两个整数单元共享故有i2 X radix-8=2X3=6.效率将超过intel的浮点运算能力150%=6/4=1.5
   5.不仅为从硬件层面使CPU能够调用GPU强大的通用计算和浮点运算的能力，而且为从软件的层面为CPU能够调用GPU强大的通用计算和浮点运算的能力做了大量的工作。
一旦实现从软件的层面为CPU能够调用GPU强大的通用计算和浮点运算的能力那么两个相互独立的异构的CPU和GPU就可完成并行的大数据量的通用计算和浮点运算。

ly530408 · 发表于 2012-7-21 10:42

Mufasa 发表于 2012-7-21 10:22
另外关于缓存调度，楼主的观点我不认同。

推土机巨量的二级三级缓存事实证明并不成功。

为什么AMD的打桩机不断增大L2,L3是为什么,据本人做算法分析和内存资源分析就是这么多可能还不够,因为如果AMD能够实现在APU的彻底实现统一寻址后，CPU、GPU之间就可以有通用的用户调用，并共享数据，从而避免相互的数据拷贝和带宽浪费，也摆脱对高内存频率的依赖，为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能，都会因此上一个台阶。
对于开发人员来说，统一寻址意味着更少的参数、更少的调试、更简单的接口，自然能大大减轻编程的负担。
如果AMD将CPU、GPU之间就可以有通用的用户调用，并共享数据的方法引到打桩机,通过CPU调用GPU的资源来进行通用和浮点运算,则对CPU的L2,L3资源要占用不少.因为当CPU调用GPU的资源来进行通用和浮点运算时，CPU通过
CPU的L2,L3的资源来调度指挥GPU进行通用和浮点运算容量不能小。
你是否知道intel的CPU在其核显运行时其CPU是参与运算的，如果它没有足够的L2,L3它的核显将更为孱弱。

Mufasa · 发表于 2012-7-21 11:07

jianghongwei 发表于 2012-7-21 10:30
你这黑amd黑的有点明显把，就说的太过了.....

amd没战略，能把amd玩死，却要故意降低自己的主频，放竞争 ...

真把AMD玩死了，Intel在X86体系成为垄断地位，就面临美国反垄断法的制裁了。。。。

IBM 和 AT&T 都因此被拆分过，所以Intel学得很乖，不去碰这条线。

分析了半天，似乎你们忽略了NVidia 的通用计算技术。
要说这方面走在前面，应该是NVidia Tesla
一套完整的产品线，和大量成熟应用的系统支持。

Intel 如果在通用计算方面烂到渣，最后的一步就是直接收购NVidia
以他现在的现金数量，这完全可行。

AMD 确实在下一盘很大的棋，但是下得太慢。
而且每一步都被对手看得清清楚楚。
这样下棋是赢不了的。

Mufasa · 发表于 2012-7-21 11:19

ly530408 发表于 2012-7-21 10:42
为什么AMD的打桩机不断增大L2,L3是为什么,据本人做算法分析和内存资源分析就是这么多可能还不够,因为如果 ...

16MB 缓存还不够？
(4x2MB L2 + 8MB L3)

现在的推土机芯片面积已经很大了，再增加缓存，GLOBALFOUNDRIES的工艺会更加吃紧。
再把显卡也加进去，制造难度又提高，良品率就低到不能接受了。
做产品终究是要赚钱的，芯片设计不能和芯片制造脱节，否则后果严重。

早期那一大堆价格非常便宜的AthlonII X4 631 641 ，
就是GLOBALFOUNDRIES工艺问题，导致APU内部的显卡部分良品率低，最后只有彻底屏蔽显卡出售。

美好的设计必须有现实的工艺支持，才能成为产品。

jianghongwei · 发表于 2012-7-21 11:23

Mufasa 发表于 2012-7-21 11:07
真把AMD玩死了，Intel在X86体系成为垄断地位，就面临美国反垄断法的制裁了。。。。

你能别这么一厢情愿不？

intel的cpu市场占有率才多少？能和微软在操作系统的占有率比？微软所有操作系统加起来占有率都达到97%，我怎么没见微软被反垄断法制裁？

Mufasa · 发表于 2012-7-21 11:26

jianghongwei 发表于 2012-7-21 10:30
你这黑amd黑的有点明显把，就说的太过了.....

amd没战略，能把amd玩死，却要故意降低自己的主频，放竞争 ...

你说的那本书我不需要看，我看这个：

TOP 10 Sites for June 2012

1 DOE/NNSA/LLNL
United States Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz, Custom
IBM

2 RIKEN Advanced Institute for Computational Science (AICS)
Japan K computer, SPARC64 VIIIfx 2.0GHz, Tofu interconnect
Fujitsu

3 DOE/SC/Argonne National Laboratory
United States Mira - BlueGene/Q, Power BQC 16C 1.60GHz, Custom
IBM

4 Leibniz Rechenzentrum
Germany SuperMUC - iDataPlex DX360M4, Xeon E5-2680 8C 2.70GHz, Infiniband FDR
IBM

5 National Supercomputing Center in Tianjin
China Tianhe-1A - NUDT YH MPP, Xeon X5670 6C 2.93 GHz, NVIDIA 2050
NUDT

6 DOE/SC/Oak Ridge National Laboratory
United States Jaguar - Cray XK6, Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA 2090
Cray Inc.

7 CINECA
Italy Fermi - BlueGene/Q, Power BQC 16C 1.60GHz, Custom
IBM

8 Forschungszentrum Juelich (FZJ)
Germany JuQUEEN - BlueGene/Q, Power BQC 16C 1.60GHz, Custom
IBM

9 CEA/TGCC-GENCI
France Curie thin nodes - Bullx B510, Xeon E5-2680 8C 2.700GHz, Infiniband QDR
Bull

10 National Supercomputing Centre in Shenzhen (NSCS)
China Nebulae - Dawning TC3600 Blade System, Xeon X5650 6C 2.66GHz, Infiniband QDR, NVIDIA 2050
Dawning

四个 PowerPC ，四个 Xeon ，一个SPARC ，一个 Opteron

其中三个明确表示用到NVidia Tesla

jianghongwei · 发表于 2012-7-21 11:36

本帖最后由 jianghongwei 于 2012-7-21 11:38 编辑

Mufasa 发表于 2012-7-21 11:26
你说的那本书我不需要看，我看这个：

TOP 10 Sites for June 2012

是，提到nvidia怎么了？和你说的Intel有关系？合着nvidia取得的成就你全算到intel身上去了？

并行计算本来就是gpu的强项，这方面nvidia有技术优势你很惊奇？你复制个废话让我看有什么意义？

ly530408 · 发表于 2012-7-21 11:42

Mufasa 发表于 2012-7-21 11:19
16MB 缓存还不够？
(4x2MB L2 + 8MB L3)

如果CPU要调用GPU的提高L2，L3是必然的，否则就无法应付，另外打桩机，压路机都不集成GPU，故适当提高L2，L3是值得的。AMD对推土机，打桩机，压路机调用GPU的浮点运算的方式是不同的，APU是片内实现，推土机，打桩机，压路机调用GPU的浮点运算的方式是片外实现，通过编写OpenGL的软件，实现CPU对GPU运算能力在底层的调用，以充分发挥GPU的强大的通用计算和浮点运算的能力。这一项的实现是未来AMD可能为购买新一代的GPU发放的一项福利。
   这项福利的发放会有三种情况:
   1）AMD自己通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。
   2）主板厂商通过充分研究，并且与AMD的合作，完成编写主板的固件程序来完成CPU对GPU通用计算和浮点运算的能力的调用，以强化CPU浮点运算的能力。这即是主板厂商综合实力的体现，也是未来主板差异化战略的重大商机。
3)软件厂商通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。为自己的产品开辟新的商机。
也就是说当前买了推土机架构的CPU，以后可能通过购买AMD的显卡及附属的驱动软件来调用GPU的强大的通用计算和浮点运算的能力，实现CPU功能的提升。

从数学的角度看推土机CPU之五

点评