Purley平台的一些规格细节

nighttob · 发表于 2017-7-16 15:41

本帖最后由 nighttob 于 2017-7-16 15:43 编辑

Purley平台，也就是目前Skylake-SP CPU + Lewisburg PCH的组合，相较于前代的Grantley平台（Haswell-EN/EP/EX, Broadwell-EP/EX CPU + Wellsburg PCH）及Romley平台（Sandybridge-EN/EP/EX, Ivybridge-EN/EP/EX CPU + Patsburg PCH）有着比较大的变化。本贴会对一些比较容易理解的规格细节进行说明。

首先一点是产品线划分及命名规则的变化

大家都知道这一代CPU的产品线和命名从Xeon E5、E7统一成了Xeon Scalable，并区分出了从低到高的Bronze、Sliver、Gold、Platinum四个级别。然而熟悉Intel玩法的人都知道，不管前面改成啥样，有用的始终是后面的4位数字。Intel也当然给了命名规则，只不过不看ark还是没法从数字上弄明白具体规格就是了。

如图所示，第1位数字代表了级别划分，第2位代表了SKL-SP这一代，第3-4位代表CPU规格，最后2位字母代表整合的功能。比如带F的是整合了Fabric，也就是Intel的Omni-Path Architecture互联总线；带T的是拥有更高的tCASE温度及增强可靠性；带M的是单CPU最大支持1.5TB内存，否则就是768GB。

第1位的级别划分也就给CPU做了定位，也就是最大支持几路、有几条UPI总线（取代了之前的QPI总线）、内存通道速率等等。

如图所示，Bronze 3000系列和Platinum 8000系列分别是最低端和最高端，而Gold分为5000和6000两个系列，主要区别在于UPI总线数量。

也就是说，虽然E5、E7没有了，但规格差异依然是存在的。八路系统依然需要用顶级的Platinum 8000系列，最低端的Bronze 3000系列还是连超线程都没有的入门级。

这次改名的目的，除了改名狂魔本色以外，更重要的是打破了过去E5、E7那种“井水不犯河水”的配置方式。我们都知道虽然老E5和E7都是LGA2011的插座，然而绝不可能把E5系列CPU安装到E7的平台上使用，反过来也一样。而这一代则是在满足必要的规格要求后，可以选用从Bronze到Platinum级别的所有型号。从近期各大服务器厂家也都推出了新一代产品中就可以看出这个改变，这里就挑一款主流双路机型的CPU兼容列表举例。

图为联想ThinkSystem SR650的CPU兼容列表，可以看到不论是最低端的Bronze 3000系列还是顶级的Platinum 8000系列都能满足双路的要求，所以都可以兼容。

但到了四路和八路机型上面就必须要用Gold级别和Platinum级别的CPU了，这一点跟过去并没有太大变化。主要就是主流的双路机型可选范围明显变大了。

其次一点是CPU整合了高速Fabric

之前说命名规则的时候提到，型号末位有F的就是整合了Intel自有的Fabric，也就是OPA。OPA是Intel收购QLogic的InfiniBand产线，并结合了Cray的互联技术所产生的一种面向HPC应用的高速互联总线，可以认为是InfiniBand的魔改版。目前OPA可以达到每个端口最高100Gbps的速率，有采用PCIe插卡形式的，以及在Xeon Phi二代的部分型号上有集成。Xeon Phi二代型号末位带F的就是在CPU基板上有一颗OPA的芯片，转接出一个Fabric的接口，我们看LGA3647插槽上有个豁口就是给这个Fabric接口用的。

如图所示，长方形突出的这一块上面就有OPA的芯片及Fabric的接口。注意Xeon Phi二代的CPU Package里面是集成有8颗MCDRAM的，但SKL-SP里面并没有。

这一点也能解释了为什么这一代CPU都是二层PCB的结构，因为CPU die是一样的，但为了区分是否有Fabric所以底层PCB有所不同。其实也说明更换CPU封装明显要比叠二层PCB要复杂的多。

那么CPU上有了Fabric接口，也就需要引线带出外部接口，所以一套系统的完全体是这样的。

图为Intel自家的HNS7200APL服务器，服务器后端的两个QSFP+28接口就是OPA的外部接口。

把高速Fabric从PCIe插卡整合到CPU Package里面毫无疑问能进一步降低延迟并减小系统内部的干扰，实现更高的性能。这也是行业发展趋势，把有高带宽低延迟需求的统统整合进CPU Package，像已成共识的内存控制器和PCIe Root Port等。

CPU上整合的Fabric需要占用一条UPI总线而非PCIe，所以CPU对外依然是x48 PCIe 3.0 lanes，只是CPU之间的互联会受一定影响。不过只有Gold 6000系列及以上的部分型号才整合有Fabric，用在双路系统上影响很小（一般双路系统不会连3条UPI），但会对四路和八路系统造成一定影响。而基于x86的HPC应用绝大多数都是双路系统群集而成的，所以整合Fabric的优势非常明显。

最后一点是芯片组集成了多种功能，子型号众多

CPU里面有了100Gbps的OPA，Lewisburg PCH里面也有10Gbps的以太网控制器，这在之前的各种介绍中都有提到过，但这一代PCH中集成的功能也是相当的多，相应的子型号也是历代最多的。

可以看到，根据板载以太网规格和QAT（Quick-Assist Technology）功能的不同，一共有7个子型号。前代Wellsburg PCH只有1个，再前代Patsburg是5个。

传统的PCH功能，诸如PCIe Root Port、SATA、USB等功能并没有在上表列出，也并没有以此区分子型号。实际上这些功能都进行了强化，并像Z270那样支持HSIO Flexible I/O。

如图就可以看出PCH中集成和复用了最多10个USB3.0、最多20个PCIe Root Port、8+6个SATA以及1Gb以太网。2组SATA控制器都支持RAID功能。PCH的PCIe接口可以组合，也支持NVMe SSD RAID。另外后8个HSIO Port可以作为上联接口连接CPU。

注意这里只是传统PCH功能的部分，10Gb以太网的功能是在另外一部分里面。

如图示，另外一部分包括这4个10Gb的以太网控制器，及3组QAT引擎等等。

集成的以太网控制器会根据PCH型号及外部PHY的不同，可以配置为1Gb RJ-45、10Gb RJ-45和10Gb SFP+的接口。至于QAT引擎，简单来说可以用来加速处理加密、解密、压缩和解压缩工作，早先也已经有独立的QAT辅助卡，现在直接在PCH中将二者的功能整合了。

需要注意的是，10Gb以太网控制器和QAT引擎并没有使用DMI 3.0 x4的带宽，而是自己单独的PCIe 3.0 x16+x8，用以保证带宽充足。其中这个x8就是上面说到的后8个HSIO接口，用来给第三组QAT引擎提供带宽，当然这样做也就少了8个SATA接口。

事实上，对于通用用途的服务器而言，有DMI 3.0 x4 + PCIe 3.0 x8或者x4搭配C624和C622 PCH就已经能满足需求（每2个10Gb网口需要x4，QAT不常用），所以多数服务器也就采用此2种PCH。更高端的PCH型号可以作为特定用途，或者从PCH（非引导PCH）存在，是的，这一代平台可以有多个PCH。

图为八路机型配置示意图，可以看到有OPA Fabric和额外的C62x PCH可选。双路、四路机型也有类似配置。

都说Intel一直是在“挤牙膏”，但Intel也是在推进硬件的发展。高端用户有计算能力和高速互联的需求，于是有了28核心和整合高速Fabric；普通用户就需要性价比高的产品，于是把4x10GbE集成到芯片组中，用户只需要根据需要选择1Gb的网口或者10Gb的网口就行；同时CPU提供了更多的PCIe lanes，用以满足用户的可扩展性需要。

要说Purley这一代进步不大的地方，我想现在只有1个就是内存规格

HSW-EP和BDW-EP是4CH*3DPC最大768GB，现在是6CH*2DPC最大768GB，保持一致；HSW-EX和BDW-EX是4CH*6DPC最大1.5TB，而现在也是6CH*2DPC，只是有了3DS RDIMM提供更高的密度，也保持了1.5TB。所以对于内存容量渴求型的应用来说，新平台并不能带来优势。

但2DPC的好处就在于消除了因为Register过多导致的内存降频问题，特别是E7那种直接1600见的情况彻底被消灭了。只要CPU支持，大家都可以开开心心地跑在2666的频率上。这对有较高内存容量需求，也同样看重内存效率的应用来说就是大好事了。只是3DS RDIMM的价格非常感人，虽然以后还会有更大的容量。果然不论何时买最先进的都要付出超过收益的代价。

jerrytsao · 发表于 2017-7-16 22:59

本帖最后由 jerrytsao 于 2017-7-16 23:02 编辑

关于DIMMs总量, 新平台对应之前几代的EX来说是降了一半而不是保持一致, E7长期以来可以借助SMI等效6DPC

Broadwell-EX (E7 v4)
3DPC 1333 + SMI
LRDIMM 128GB*24=3TB/1S
LRDIMM 128GB*48=6TB/2S
LRDIMM 128GB*96=12TB/4S
LRDIMM 128GB*192=24TB/8S

Skylake-SP
2DPC 2666
LRDIMM 128GB*12=1.5TB/1S
LRDIMM 128GB*24=3TB/2S
LRDIMM 128GB*48=6TB/4S
LRDIMM 128GB*96=12TB/8S

nighttob · 发表于 2017-7-16 23:01

本帖最后由 nighttob 于 2017-7-16 23:04 编辑

jerrytsao 发表于 2017-7-16 22:59
关于DIMMs总量, 新平台对应以前地EX来说是降了一半, 而不是保持一致, E7长期以来可以等效4DPC

Broadwell-E ...

DIMM数量是减半了没问题，所以只能靠密度去补。
虽然我确实见过1333的DDR4，但这情况太少见了。正常情况下还是会1600的。

chungexcy · 发表于 2017-7-17 07:45

突然注意到，为啥8路下，有4个cpu，UPI画了4条互连？

dongyi945 · 发表于 2017-7-17 14:18

滑稽 intel又在玩这个科技以改名为本。
不过名词比数字更容易记，也更能看出来级别高矮。
还钻石大师王者呢。

nighttob · 发表于 2017-7-17 14:22

chungexcy 发表于 2017-7-17 07:45
突然注意到，为啥8路下，有4个cpu，UPI画了4条互连？

我认为是画错了

小夜叉 · 发表于 2017-7-17 14:26

挤牙膏指的就是主流平台，高端大氪户牙膏厂不拿干货出来就得饿死了

中华田园犬 · 发表于 2017-7-17 14:45

为什么唯独金有5-6两个系列？

nighttob · 发表于 2017-7-17 15:05

中华田园犬发表于 2017-7-17 14:45
为什么唯独金有5-6两个系列？

这问题没啥意义……

NOIP117 · 发表于 2017-7-17 16:26

感谢分享，真心是好资料！

futchi · 发表于 2017-7-17 17:43

chungexcy 发表于 2017-7-17 07:45
突然注意到，为啥8路下，有4个cpu，UPI画了4条互连？

完全画错了，8路拓扑应该类似于立方体8个顶点一样的结构，每个顶点连着三条棱边，没有对角线

Pale_Cheung · 发表于 2017-7-19 10:06

nighttob 发表于 2017-7-17 14:22
我认为是画错了

3条互联，8sockets 时候画图一般画一个立方体。

相邻互联。没有对角。

内存最远要过 3个 cpu 互联线路

konglang_616 · 发表于 2017-7-21 12:19

AMD EPYC 给英特尔的压力很大啊
http://www.amd.com/zh-hant/node/1761

DoctorX99 · 发表于 2017-8-2 08:26

小夜叉发表于 2017-7-17 14:26
挤牙膏指的就是主流平台，高端大氪户牙膏厂不拿干货出来就得饿死了

这话赞同，字数布丁

Purley平台的一些规格细节

本帖子中包含更多资源

评分