Finfet/3D晶体管时代的几个工艺

haomingci3 · 发表于 2017-8-3 10:55

本帖最后由 haomingci3 于 2017-8-3 10:57 编辑

首先先有几个先导知识：

1、高性能工艺与低功耗工艺：高性能工艺又被称为通用工艺，在同关键技术（HKMG、Finfet等）代内一般密度低的性能强劲，当然并不绝对，一方面受厂商鱼鳍与底层技术能力影响，另一方面每一代关键技术都有一个密度性能甜点，这一代的甜点估计是在intel 14++到台积电16FF+左右的位置，intel 14++、台积电12FFN两大高性能工艺都选择在这个密度点附近，预计GF14+也是如此。

高性能工艺的特征是在高频率下，同频功耗低于低功耗工艺，并且能稳定下来的频率上限更高（极限超频不追求稳定，这主要指1.4V以下超频）；但是在低频下则功耗逊色于低功耗工艺。什么时候属于高频，什么时候属于低频是看对比工艺的，有些工艺对比时2G多点就开始算高频，如台积电20nm vs 28nmHPM，有些工艺对比甚至500MHZ就成为拐点。高性能、低功耗除了厂商有时候有定位外（i14++和初代10，台积电的16+和10，三星的GF14+和10LPE），多数情况都是相对而言的，在跨厂商对比时要慎用。

PS：工艺本身不会影响IPC。

2、关键技术：进入45nm以后，关键技术的利好性最佳，进入intel 22nm之后的FF工艺基本都是一个世代，只是在做性能、成本、良率、功耗等不同导向的取舍，密度增大已经是一把双刃剑。工艺利好性较高的另一操作是鱼鳍增高与底层优化（14+相对于14除密度降低一点外的主要操作，老黄的12FFN和接下来GF14+估计也是进行了类似操作），当然鱼鳍加高也是有上限的，能抵消的密度副作用也有限，业界普遍认为在intel密度标准下10nm是FF的最终章，EUV可以小续一秒，不过10nm-7nm之间就已然不是好不好强不强的问题了，而是能不能用的问题，intel的10nm和其他家的7nm选的密度点大同小异很大程度上源于此，真正续命得引入新关键技术。

但业界终点并非什么好事，业界的认知上，非HKMG不要做30nm以下产品，台积电强做了28lp；非FF不要做20nm以下产品，台积电强做了20nm。所以你看到intel的初代10nm现有资料看地位连初代14nm都不如，初代14好歹硬着上了桌面，而intel自己也承认即使是第二代10+也没能干掉14++，10++干掉了14++，那是19年的事情，那是业界估计的GAA元年，当然也可能会出现不顺，10++又像14++一样降密度玩。

总之，密度更大的工艺能做到全面进步才是罕见的，有升有降做取舍是常态。

3、流水线：影响能否跑高频除了工艺还有别的因素，其中一个参数就是流水线，流水线越长越能超，但同时也受到SIMD等其他因素影响，根据分支预测反推，SNB的流水线为14级，haswell为15级，skylake为17级，ryzen为19级，具体我们下面说。这里提一句，ryzen受到14LPP的限制是非常大的，不仅是在表象上频率上不去，为了能够达到4G左右拉到这么高的流水线也会对IPC和uncore设计有不小的影响。

4、没有意义的优势：有些优势在一些产品上没有意义，比如22SOI工艺（这个不是FF流派，不能简单地比密度）在200MHZ下能耗比超强，但对于桌面端没有任何意义，它目前也只是嵌入式领域的工艺；比如22nm，性能比初代14nm强很多，但放到超多核心的服务器领域，低频多核效率更高，那22nm超频能到5G也没有意义。

5、意义较低的优势：很多人问，既然20nm和初代10nm等低功耗工艺适合低频多核，那老黄和AMD干嘛不上，反正规模对显卡肯定有效，1080规模多一倍，性能就比1060多一倍。没错，GPU怎么堆规模都有效果，但问题在于如10nm、20nm一类的低功耗工艺在频率上降低很多，帕斯卡跑10LPE有可能出现1G多点到顶的状况，这时候你要花翻倍的规模来弥补，最终的成品可能是面积与16+的帕斯卡一样，能耗比是秒飞了16+帕斯卡，但纯性能差不多，成本却暴涨（有过分析单位面积价格10nm比14/16高50%）。问题来了，用户愿不愿意为接近的性能、能耗比增加多付出50%的票子？又或者厂商愿不愿意保持原价，让利50%给消费者？并且厂商低功耗定位的工艺做大核心也存在很多问题，成本进一步提升只是问题的一部分。

总结：

Intel 22nm：FF世代的开山之作，虽然莫名其妙地被硅脂弄的口碑不佳，22nm如果不考虑功耗，至今性能仍然处于顶尖范畴，你可能疑惑14+那么能超，比22nm不强多了。问题要综合来看，现在你需要看流水线，上面的几个架构常用IPC差异还没到能吃多级流水线的程度，除了haswell的AVX2能达到吃掉一级流水线的水平，不信你试试haswell-KBL跑P95 27.9X64的稳定电压是不是比你用29.2X64低很多，能稳的频率是不是要高。而同时你可以看到broadwell超频很烂，但同为初代14的SKL则要好上不少，那两级流水线不是白上的，因此14+超频更强我认为架构流水线变化占了一部分功劳，同架构比22与14+孰强孰弱并不确定。功耗不必说，肯定被后面的工艺打趴。

Intel 初代14nm：虽然也做了拉鱼鳍和底层优化，但密度提升太大抵消了收益，导致其性能倒车严重，broadwell你懂的，5775C立即被淘汰与此估计有不小关系。功耗控制倒是尚可，同频同压和14+几乎一样，但14+并不和初代14同压玩。

Intel 14+：相对初代14降低密度，调侃一下我叫个intel 14.5nm，并拉高鱼鳍底层优化，与调体质的7700K到7740X是本质的不同，调体质主要是掺杂选取与良率等的小幅度变化，工艺是一样的，频率上下限几乎不变，俗称官方挑雕，没办法做到SKL变KBL这种基本盘甩飞大雕的提升。目前综合最强工艺，虽然性能上与22有些纠缠，但性能强的同时功耗甩开22一大截就已经奠定了它的水准。

Intel 14++：CFL的工艺，预计是10nm甚至比10nm强（因为密度低更敢拉鱼鳍）的鱼鳍和底层用在了intel标准下16nm密度上做出的产品，与初代10nm有通用工艺与低功耗工艺搭配的意思。与14+的PK性能上强劲，低功耗表现上能否完爆14+尚存悬念，毕竟14++也上了笔记本，两个变量，一个是底层14+输，一个是密度14++输，不过话说回来，只要1ghz以上都是14++压制14+，那14+的低功耗优势在桌面上就基本是无用优势了。

GF 14nmLPP：很多人以为它带着LP（low power）就以为它是低功耗工艺，但其实不是，低功耗工艺需要通过拉密度来做的，14LPP作为密度与14++接近的产品（三星自家的10LPE与Intel 14/14+密度差不多，比14LPP大60%），在现阶段的桌面比拼中只有一条出路就是做高性能工艺，然而14LPP的高性能表现大家有目共睹。不得不说ryzen为14LPP做的仁至义尽，把AVX2单元砍了一半，还做了19级流水线来带14LPP，最后4G左右止步，ryzen表示我能怎么办，我也很无奈啊。14LPP同期面对14+主要在成本上占优，14+的密度和三星10LPE基本一样的，而且还做成了高性能工艺，这就不必我多说了吧，其实14LPP对台积电16+的成本都占优。不过14LPP面对自家10LPE和台积电初代10nm时仍能有一些高性能优势。

GF14+：PPT上ryzen的下一代工艺，细节较少，估计密度变化不大，主要是鱼鳍和底层增强，按现阶段的业界平均鱼鳍与底层技术能力来看，把ryzen带到skylake的频率水平也是有可能的。

台积电12FFN：这个工艺不同于公版的12nm即12FFC，大家不要将二者搞混，12FFN在晶体管密度上与16+差不多，比12FFC小很多，N代表NVIDIA定制的意思，细节尚少，但个人估计是将台积电10nm左右的底层和鱼鳍做到了台积电15.5nm的密度上。

台积电16+工艺：台积电现在的通用高性能工艺，高性能表现很突出，台积电在10nm量产后仍称16+性能最强（此消息来源来自国内媒体，我没找到原话），与i初代14的战况比较纠缠，高性能爆掉14LPP问题不大，在1GHZ左右级别对决中能耗略输14LPP。

zangao · 发表于 2017-8-3 14:14

沙发涨了不少知识

yangzi123aaa20 · 发表于 2017-8-3 15:17

前排听讲

菲尼克斯 · 发表于 2017-8-3 16:19

感觉RYZEN确实受到了14lpp的限制，当年用过骁龙810的人就会知道那个20nm真的不如28hpm

菲尼克斯 · 发表于 2017-8-3 16:19

顺便问下LZ，HPM HPC HPC+之间哪个比较好

SSD考察团 · 发表于 2017-8-3 17:02

不知道，反正我只买INTEL

里奥 · 发表于 2017-8-3 19:59

台积电20nm对决28nm除了烤龙810以外，还有一个典型例子，苹果A8和A7

londbell · 发表于 2017-8-4 09:07

台积电20nm还把X20给坑了，很多时候一降频，还打不过650

AthlonX2 · 发表于 2017-8-4 15:28

没想到SNB的流水线是最低的。实际的IPC却比haswell，skylake低，啥原因？

黄元1981 · 发表于 2017-8-4 22:25

我只知道目前晶体管数量最多的就是V100 晶体管数量高达211亿，估计英特尔的14nm+++都做不出这种晶体管暴多的巨兽吧

黄元1981 · 发表于 2017-8-4 22:25

我只知道目前晶体管数量最多的就是V100 晶体管数量高达211亿，估计英特尔的14nm+++都做不出这种晶体管暴多的巨兽吧

haomingci3 · 发表于 2017-8-5 06:27

AthlonX2 发表于 2017-8-4 15:28
没想到SNB的流水线是最低的。实际的IPC却比haswell，skylake低，啥原因？

流水线越长并不代表IPC一定会降低，还有其他影响因素，比如你的分支预测做的怎么样，缓存设计怎么样等等

haomingci3 · 发表于 2017-8-5 06:30

菲尼克斯发表于 2017-8-3 16:19
顺便问下LZ，HPM HPC HPC+之间哪个比较好

HPM最佳，除非你拿来做低频A53。HPC是纯缩水型工艺，密度大一些，HPC+是缩水后找回一些HPM特性的工艺，有能与HPM组成高低性能工艺搭配的潜质，不过拐点较低，主要还是成本导向

haomingci3 · 发表于 2017-8-5 06:42

黄元1981 发表于 2017-8-4 22:25
我只知道目前晶体管数量最多的就是V100 晶体管数量高达211亿，估计英特尔的14nm+++都做不出这种晶体管暴多 ...

我看除了成本拿14++去做没什么问题，GV100的面积非常大，如果你去算GV100对比GP100的晶体管密度提升为3.22%，同为28nm的GK110到GM200的提升为3.3%，我是没看出12FFN能做而14++做不了的情况

xdd6622 · 发表于 2017-8-5 10:51

本帖最后由 xdd6622 于 2017-8-5 10:55 编辑

终于明白不是制程越小越好。看样子22NM挺不错

AthlonX2 · 发表于 2017-8-6 10:43

本帖最后由 AthlonX2 于 2017-8-6 10:46 编辑

haomingci3 发表于 2017-8-5 06:27
流水线越长并不代表IPC一定会降低，还有其他影响因素，比如你的分支预测做的怎么样，缓存设计怎么样等等 ...

谢谢。明白些了。
现在来看，SNB14级这么短的流水线能上5G挺牛的。

danze · 发表于 2017-8-6 23:59

AthlonX2 发表于 2017-8-4 15:28
没想到SNB的流水线是最低的。实际的IPC却比haswell，skylake低，啥原因？

主要还是因执行资源少
snb乱序执行规模是168条目,LOAD/STORE是64和36,整数/浮点硬件寄存器文件160/144,6个执行端口 54条目调度窗口
hsw乱序执行规模是192条目,LOAD/STORE是72和42,整数/浮点硬件寄存器文件168/168,8个执行端口 60条目调度窗口
skl乱序执行规模是224条目,LOAD/STORE是72和56,整数/浮点硬件寄存器文件180/168,8个执行端口 97条目调度窗口

ryzen的资源总体介于hsw和skl之间,部分资源堆料超过iu

AthlonX2 · 发表于 2017-8-7 15:20

danze 发表于 2017-8-6 23:59
主要还是因执行资源少
snb乱序执行规模是168条目,LOAD/STORE是64和36,整数/浮点硬件寄存器文件160/144,6 ...

这么一说明白了。以后CPU的性能提升会从哪个方面优化？降低流水线还是增加执行资源？

danze · 发表于 2017-8-10 16:51

AthlonX2 发表于 2017-8-7 15:20
这么一说明白了。以后CPU的性能提升会从哪个方面优化？降低流水线还是增加执行资源？
...

其实cpu发展到现在,基本都是尽力挖掘算法/设计保持效率再增加执行资源
当然也可以市场导向，只重点增强时下某些用途的表现不为一些难做而目标市场不大的用途消耗设计经费/资源这样就容易多了

liuxichi · 发表于 2017-8-12 22:45

学习了，流水线原来指的是分级管理差不多这样理解吧！工艺看着有点晕

Finfet/3D晶体管时代的几个工艺

评分

评分