通过以上的分析可以看出AMD坚持采用推土机架构是合理和科学的它反映了今后CPU和GPU的融合的必然趋势。然而AMD的CPU的浮点运算的软肋终究是要补齐的。其补齐的方法不外是以下几条。
1。给CPU设计全新的除法运算器。
据超能网的消息:
地址为:http://www.expreview.com/18614.html
采用Radix-8除法器,第三代“推土机”架构揭秘
按照AMD的规划,“Bulldozer”推土机是第一代模块化CPU,第二代则是Piledriver打桩机,将于今年下半年发布,而且使用了Cyclos半导体的Resonant Clock Mesh技术以提高性能。到了2013年就该“Steamroller”压路机出场了,AMD对它的描述是“Greater parallelism”,强调并行性能提升。
有关压路机的架构设计目前还是捕风捉影的阶段,日前AMD研究部门的David M. Russinoff发布的一篇论文中证实了Steamroller将会采用radix-8 SRT浮点模块,每周期运行指令将从目前的radix-4单元的2条提高到3条。Steamroller改变的是CPU中除法器(diyider)单元的设计,有兴趣的可以参考wiki的解释。David M. Russinoff参与了Llano APU的设计,其diy单元与前代K10没有diy硬件支持的设计有所不同,推土机继承了K10的设计,FMAC(浮点累积乘单元)中的除法器功能有限。现在Steamroller的设计类似Llano,当然不会是100%相同,因为它使用的是radix-8而非Llano的radix-4,每周期执行的指令数从2条提高到了3条。对比Intel的前进的步伐,AMD其实还是慢了许多,因为Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了,每周期指令数从原来的2条一下子提高到4条,数据延迟更低,浮点单元以及整数单元都可以从中受益。
分析认为AMD之所以没有采用radix-16而用了折衷的radix-8,是因为模块化结构中FP浮点单元被两个整数单元共享,radix-16过于复杂,成本更高。架构上的设计变化太过学术化,AMD的模块化CPU理念先进,但是第一代CPU表现并不太好,既有工艺上的掣肘也有架构设计上的不足,希望到了Steamroller这一代能更成熟些。
从以上的消息可以看出压路机出台后而此架构一但落实与成功,AMD与IETTL的差距将不复存在.但有人会说Intel早在酷睿时代的Penryn架构上就已经采用radix-16除法器了.每周期指令数从原来的2条一下子提高到4条.你的效率还是低25%.可是大家不要忘记AMD的CPU是双核心组合模块新架构,2 X radix-8=2X3=6.效率将6/4=1.5=150%.
2。通过硬架构实现CPU、GPU统一寻址,充分调用GPU的强大的通用计算和浮点运算的能力.而随着第三代的APU的CPU、GPU统一寻址,则,AMD与IETTL的差距也将不复存在。
现在看一条消息:
AMD包圆核心硬件?索尼PS4规格最新传闻
相关专题: 新闻 时间:2012-05-29 05:41 来源: 和讯网
我们知道,AMD已经确定为索尼PS4提供从处理器到图形芯片一揽子解决方案。
今天,网上又泄漏了据称是索尼PS4的硬件规格,下面让我们来先睹为快。
索尼PS4研发代号Orbis,发布日期2013年圣诞节前后。处理器采用AMD 28nm 64-bit Kaveri,4个Steamorller核心,8个线程,512个流处理器,1TFLOPS计算能力,用途为通用计算(物理,AI,动画等等)。
PS4图形系统采用AMD 28nm GPU,基于Pitcairn,GCN架构,1280(1D)个流处理器,计算能力大2.5TFLOPS。
PS4配备4GB共享内存,500GB内置硬盘,蓝光驱动器。
这条消息如果被证实,则包含了巨大的信息量.极为重要.
1)首先反映了AMD的第三的APU的架构预研已经结束.即将转到流片的前期准备工作,否则到明年才开始准备流片的前期准备工作,时间及生产部署根本来不及.
2)其次反映了AMD的第三的APU的架构的达到了预期的技术指标,满足PS4的技术架构的整体要求。首先从APU的浮点运算能力和通用计算已达到1TFLOPS计算能力,用途为通用计算(物理,AI,动画等等)。这说明了个题,即有要么是CPU的浮点运算有了大幅度的提高,要么是CPU和GPU的融合性能有了质的飞跃。即加入的RISC微型处理器对CPU核心、GPU各线程进行实时动态调度,大大克服了目前推土机所存在的线程调度问题,将软件级线程调度(操作系统调度)提升到硬件级别,开放式异构计算架构 HSA使性能提升达到了非常强劲的地步。或者两者兼而有之。
3)PS4图形系统采用AMD 28nm GPU,基于Pitcairn,GCN架构,1280(1D)个流处理器,计算能力大约2.5TFLOPS。它说明了Pitcairn,GCN架构的显卡的架构的巨大的浮点和通用计算能力在游戏中将有出色的表现。并该显卡与APU中的GPU组成双显卡的CF体系将使整机的浮点和通用计算能力达到或大幅度的超过1TFLOPS+2.5TFLOPS=3.5TFLOPS的浮点和通用计算能力。
4)CPU的浮点运算的架构有了质的改进。
以上的推断是否正确呢?最近硬派网的消息如下:
28nm工艺 第三代APU—Kaveri规格预览
来源:wccftech 【编译】 2012-07-05 作者:王磊 责任编辑:王磊
尽管桌面版的Trinity还没发布,但AMD已经计划好将于明年推出28nm工艺、架构为Kaveri 的第三代APU,以取代32nm工艺Trinity的位置。
Kaveri APU将具备2~4个Steamroller(压路机)核心,其中四核款的TDP将为100W。同时,Kaveri将支持DDR3-2133MHz内存,具备4MB三级缓存,而接口将继续使用Socket FM2。
GPU方面,Kaveri将采用GCN架构的HD8000系列显卡,规格最高的版本将具备384个流处理器,而性能预计将接近HD7750。此外,Kaveri也将支持双显卡混合交火、Turbo Core、Blu-ray 3D、AMD –V、UVD 3.2、Direct Compute以及OpenCL等技术。
另外来自驱动之家的消息如下:
APU明年实现真正的CPU/GPU统一寻址
2012-06-13 16:28:44作者:上方文Q 编辑:上方文Q
AMD一直宣传Fusion APU不仅仅是CPU、GPU的简单物理整合,更是深层次的融合,而实现这种融合的关键之一就是CPU、GPU的统一内存空间寻址。经过Llano、Trinity的两代铺垫之后,明年的Kaveri将最终完全实现这一梦想。
彻底实现统一寻址后,CPU、GPU之间就可以有通用的用户调用,并共享数据,从而避免相互的数据拷贝和带宽浪费,也摆脱对高内存频率的依赖,为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能,都会因此上一个台阶。
对于开发人员来说,统一寻址意味着更少的参数、更少的调试、更简单的接口,自然能大大减轻编程的负担。
还有消息确认,Kaveri APU的CPU部分将会是“压路机”(Steamroller),仍然是推土机架构但会解决目前打桩机架构中的几个重大问题,基本展现推土机应有的实力,GPU部分则是真正的GCN架构,不像Trinity那样是VLIW4架构加上Radeon HD 7000系列的部分特性综合而成。至于是不是每个核心都会有自己的浮点单元和指令调度器,CPU、GPU是否能共享三级缓存,封装接口会不会再次改变,现在都还不能确认,从可能性上看后两个比较大,而前者概率很低。
Intel Haswell也将在明年继续大幅提升图形性能,最多40个计算单元,三级缓存共享也早已实现,但不会有统一内存寻址,并行计算虽然支持但不可能有太好的表现。
另外,AMD还在AMD Fusion开发者峰会上宣称,APU的历史累计出货量已经超过4000万颗,十二大OEM厂商中有十一家都采纳了APU,Llano APU在AMD移动平台上的普及率已达60%。
从以上的报道证实作者的推断的正确度.
3.通过编写OpenGL的软件,实现CPU对GPU运算能力在底层的调用,以充分发挥GPU的强大的通用计算和浮点运算的能力。这一项的实现是未来AMD可能为购买新一代的GPU发放的一项福利。
这项福利的发放会有三种情况:
1)AMD自己通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。
2)主板厂商通过充分研究,并且与AMD的合作,完成编写主板的固件程序来完成CPU对GPU通用计算和浮点运算的能力的调用,以强化CPU浮点运算的能力。这即是主板厂商综合实力的体现,也是未来主板差异化战略的重大商机。
3)软件厂商通过编写CPU调用GPU的软件程序或编写GPU从硬件底层支持CPU的软件指令来强化CPU的通用计算和浮点运算的能力。为自己的产品开辟新的商机。
也就是说当前买了推土机架构的CPU,以后可能通过购买AMD的显卡及附属的驱动软件来调用GPU的强大的通用计算和浮点运算的能力,实现CPU功能的提升。
对第三方的主板商或软件商来说这是一个稍纵即逝的战略商机,如果AMD一旦腾出手来机遇也就不复再来。同样的问题和解决思路亦可用于INTEL的CPU和NVIDIA的显卡上。但是当这两家也发现此商机,实现专断开发时,就不会再有此商机。
最后回答几个重要的问题:
1 为什么说是L1或L2或L3的缓存配置不当所致,或说是内存控制器落后,或是说是分支预读取和判断落后所致推土机架构效率低,都是错误的分析。
答:这可从以下的分析得出结论.
这是I7 2600K 和FX-8150 的CPU缓存及内存控制器,指令集对照 .
品牌 I7 2600K FX-8150 CPU
项目
L1 一级数据缓存 4 X 32KB 一级数据缓存 8 X 16KB
一级指令缓存 4 X 32KB 一级指令缓存 4 X 64KB
L2 二级缓存 4 X 256KB 二级缓存 4 X 2MB
L3 三级缓存 8MB 三级缓存 8MB
指令集 MMX,SSE(1,2,3,3S,4.1, x86, x86-64, MMX, SSE
4.2),EM64T,VT-x,AES, SSE2, SSE3, SSSE3, SSE4.1,
AVX ,FMA SSE4.2, SSE4A, XOP, AES, AVX
, FMA4
内存控制器 双通道DDR3 1333 双通道 DDR3 1866
常言说的好,有比较才有区别,才可以分析问题的所在.
1)从以上的数据看AMD的推土机的一级缓存不仅不低于I7 2600K的一级缓存而且还高于I7 2600K的一级缓存,首先看AMD的推土机的的架构是FX-8150是四模块八核心,一级数据缓存 8 X 16KB=128KB.而I7 2600K 4 X32KB=128KB 两者打了个平手,FX-8150一级指令缓存 4 X 64=256KBI7 2600K一级指令缓存 4 X 32KB=128KB ,也就是在指令处理上FX-8150较I7 2600K更具备优势.另外可以说的是两个CPU的L1的16K比一个CPU的L1 32K更快更有效率。这在算法上可给出严格的证明。但是它要涉及到算法调度优先级的判断和选用。你如果找到MIPS处理器设计透视,CellBE处理器编程指南,大话处理器就知道了。可能你会问X86的架构关乎MIPS处理器什么关系,可是你看了大话处理器P71页的RISC时代就知道CISC指令集的X86指令集先被解码为类似RISC指令的微操作。以后的指令采用RISC的内核。这是INTEL的P6架构确立的。这点一直延用至今。
2)从二级缓存看 FX-8150 4 X 2MB 而I7 2600K 4 X 256KB 这意味着CPU在一级缓存没有命中时,FX-8150 可以比I7 2600K 有更大的二级缓存来提高命中率.
3)从二级缓存看两者无区别.
4)在分析了一,二,三缓存后分析以下内存控制器FX-8150双通道 DDR3 1866,I7 2600K 双通道DDR3 1333 两者强弱不言自明.
5)最后看一下CPU指令集 FX-8150 x86, x86-64, MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, SSE4A, XOP, AES, AVX, FMA4,I7 2600K MMX,SSE(1,2,3,3S,4.1,4.2),EM64T,VT-x,AES,AVX ,FMA,I7 2600K 有的指令 FX-8150 全有,I7 2600K 没有的指令,FX-8150 也有,FX-8150 的指令集比,I7 2600K 指令集更丰富.
通过以上的分析在CPU了一,二,三缓存,内存控制器,指令集上 FX-8150 全面领先.可是FX-8150 在整数运算的表现说明了这点.
2.为什么说不是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的主要原因.
答:对照FX-6100与X6 1055T的内存写入即可说明.
FX-6100 内存写入9928MB/秒
X6 1055T 内存写入6895 MB/秒
9928MB/秒/6895 MB/秒=1.43
这个运算结果也反驳了是AMD推土机架构的浮点运算器减少所致CPU单核的浮点运算能力偏弱的说法。
3.既然浮点运算器是INTEL和AMD的CPU浮点运算差距的主要原因.为什么AMD不立即推出radix-16除法器.
答:提升除法运算器的浮点运算能力不是一个简单的事,否则AMD早就推出radix-16除法器了.因为INTEL在2006起采用radix-16除法器,而AMD据超能网的消息压路机的架构采用的还是radix-8除法器,而不是radix-16除法器.,它涉及到算法调度,要知道从每周期指令数从原来的2条一下子提高到4条涉及的算法难度决不是提高一倍的概念,要提升几十个或数百个数量级。难度极大。
此外AMD亦希望通过CPU对GPU的调用来弥补CPU的浮点运算能力偏弱现状.随着彻底实现统一寻址后,CPU、GPU之间就可以有通用的用户调用,并共享数据,从而避免相互的数据拷贝和带宽浪费,也摆脱对高内存频率的依赖,为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能,都会因此上一个台阶。此时CPU的浮点运算能力偏弱现状将不复存在.
4.既然可以通过CPU调用GPU的通用计算和浮点运算的能力为什么不立即采取相应的措施?
答:
1)首先从硬件层面上完成要有赖于彻底实现统一寻址,CPU、GPU之间就可以有通用的用户调用,并共享数据而这一步尚待进一步完善.
2)从软件层面上完成要有赖于对相应的硬件架构的软件代码的全面地编写,和相应的验证过程.
5.既然可以通过CPU调用GPU的通用计算和浮点运算的能力为什么还要设计新的radix-8除法器
答:根据数学公式和实际的运算都证明了CPU与GPU相比在小容量的通用计算和浮点运算中具有极大的优势.其运算速度更快.而最直接和最快的实现CPU的在小容量的通用计算和浮点运算中的能力就是设计新的radix-8除法器,尽快提升CPU的在小容量的通用计算和浮点运算中的能力.
以上是自己的一些研究的心得,可能有不对之处,仅供参考。 |