为什么英特尔/美光的3D闪存还在用浮栅型结构？

Essence · 发表于 2018-7-24 14:30

虽然英特尔和美光已经解除在闪存领域的合作了，不过到96层3D NAND为止它们的技术还是共同研发的。所以今天介绍的内容同时包括英特尔和美光，或者说是它们二者位于犹他州利希市的合资工厂IMFT所采用的闪存技术。

Floating Gate VS Charge Trap

长久以来Floating Gate浮栅式结构一直是平面NAND闪存的共同选择。闪存使用浮栅层中的电子来记录和表达数据。在最上方的控制栅极施加正电压，电子就通过隧道氧化层进入Floating Gate浮栅，完成写入操作。在Substrate衬底施加正电压，可以将电子从浮栅层吸引出来，完成擦除操作。随着擦除次数的增多，隧道氧化层老化，存储在浮栅中的电子就容易流失而导致数据出错，不断磨损的最终的结果就是闪存单元损坏。

Charge Trap电荷捕获型结构的提出略早于3D NAND闪存，并在3D闪存时代成为主流的选择，包括三星、东芝、SK Hynix在内的闪存厂商普遍选择了Charge Trap，只剩英特尔/美光在3D NAND中坚持Floating Gate不动摇。

在2013年的闪存峰会上，三星介绍V-NAND时，用比喻的方式解读了Floating Gate浮栅型与Charge Trap电荷捕获型的区别：前者像水一样可让电子在其中自由移动，后者像奶酪一样捕获电子，使其难以动弹。显然，Charge Trap电荷捕获型结构有利于减少隧道氧化层变薄和老化对擦写寿命产生的影响，简而言之，这项技术可以有效提升闪存的耐久度。

不以Floating Gate为耻：

美光在官网上非常自豪的宣布，自己是首个将floating gate浮栅结构应用到3D闪存当中的。换句话说，美光不认为自己的选择就比三星、东芝和SK Hynix全都采用的Charge Trap电荷捕获型结构落后。

Charge Trap电荷捕获型结构有很多优势，比如制造工艺更简单、存储单元间距可以做的更小、隧道氧化层老化磨损速度降低、更节能。而凡事都有两面性，英特尔/美光选择继续使用的Floating Gate浮栅型也并非一无是处，比如在读取干扰、数据保持期上，Floating Gate理论上比Charge Trap表现的更好。

简单来说，采用Charge Trap有助于更高的闪存写入耐久度，Floating Gate则有利于实现更长的断电数据保持时间。当然，这里的比较是基于理论研究的成果，并不是具体某个闪存型号的直接对比结果。

浮栅结构的英特尔/美光3D NAND并不弱鸡：

使用传统Floating Gate浮栅式结构的英特尔/美光3D NAND闪存也有很多创新之处。比如CuA（CMOS Under the Array）设计将超过75%的逻辑电路（包括地址解码和页面缓冲器等）放置在闪存之下，提高了存储密度，有助于获得成本优势。

当代闪存的Page大小已经达到16KB，而操作系统主要使用4KB随机读写。为了提升4K随机读取效能，英特尔/美光在3D NAND闪存当中引入了Snap Read功能。在Snap Read帮助下，第二代64层堆叠3D闪存中典型Page页读取延迟从78微秒降低到49微秒。

Snap Read在第一、第二和未来第三代3D NAND闪存中具有不同程度的支持。

英特尔/美光将16KB的Page分为3个8K+区段：对应0-9295字节、4648-13943字节和9296-18591字节。Snap Read启用时，读取命令指定的字节地址决定要读取的8K+区段。寻址前4KB+部分（包括4KB和Spare area，下同）时激活第一个8KB+部分读取，寻址第二个4KB+部分激活中间的8KB+部分读取，寻址第三和第四个4KB+部分激活末尾的8KB+部分读取。

Snap Read通过读取部分页面，能够让4K读取速度更快一些，同时还能降低功耗。对于固态硬盘来说，Snap Read的直接影响就是4K单线程读取性能更强。下图是PHISON群联下一代E12主控搭配东芝和美光3D闪存时的CrystalDiskMark成绩：

众所周知，由于SLC Cache的原因，CrystalDiskMark测出的4K读取性能都是基于SLC Cache的结果。受益于Snap Read的影响，美光B16A（第二代64层堆叠3D NAND，单Die 256Gb容量）的4K读取延迟更低，在同样的主控下单线程4K读取性能取得了显著的领先优势（67.73MB/s Vs 56.69MB/s）。

当然，随着英特尔和美光双方在闪存研发上分道扬镳，业界也不确定之后会不会有谁最终转向更大众的Charge Trap电荷捕获型结构。

linkerlin · 发表于 2018-7-24 16:45

断电数据保存时长是很重要的.
虽然大部分都是每天开机的日常使用.

PolyMorph · 发表于 2018-7-24 17:46

本帖最后由 PolyMorph 于 2018-7-24 17:48 编辑

三星的96层tlc 500us编程 50us读取，好于48层，代价是密度维持256Gb die
fg还是ctf对我们来说没区别，是nand就要垃圾回收，不能直接写覆盖，就有稳定态远低于初始态的情况，就有写入放大，这些方面nand就算是slc也根本不能和optane相提并论的。完全是天壤之别。顺便说一句，真正的optane颗粒的实力，估计要等到dimm形式出来后才知道

linkerlin · 发表于 2018-7-24 21:20

PolyMorph 发表于 2018-7-24 17:46
三星的96层tlc 500us编程 50us读取，好于48层，代价是密度维持256Gb die
fg还是ctf对我们来说没区别，是n ...

性价比是核心。
内存如果够大可以极大的减少读盘。
所以，如果盘太贵，还不如内存翻倍。除非写操作特别多。

DGX · 发表于 2018-7-24 21:24

牙膏镁光离婚了？
那么镁光给农企代工906P的可能性越发的大了？！

dboy99 · 发表于 2018-7-25 07:53

终于有文章谈到3d nand的关键点了，赞一下

美光沿用浮栅还有个原因是浮栅结构的密度明显高于电荷捕获，更有利于降低成本

FlankerWang · 发表于 2018-7-25 18:49

DGX 发表于 2018-7-24 21:24
牙膏镁光离婚了？
那么镁光给农企代工906P的可能性越发的大了？！
...

美光自己都还没整明白呢

kkess · 发表于 2018-7-25 20:09

原来Intel 760p的逆天单线程4K是这么来的。。。评测里好像是76MB/s吧

DGX · 发表于 2018-7-25 22:41

FlankerWang 发表于 2018-7-25 18:49
美光自己都还没整明白呢

镁光前CEO不是去农企了么

这个
很有遐想空间...............

dboy99 · 发表于 2018-7-27 09:27

本帖最后由 dboy99 于 2018-7-27 09:29 编辑

关于FG比CT保存期更长这点我有疑问，之前看过一篇论文，在氮化镓上CT比FG的保存期更长，CT的漏电速度远低于FG

这里提到的FG保存期长于CT，有依据吗？

石头 · 发表于 2018-7-27 10:18

dboy99 发表于 2018-7-27 09:27
关于FG比CT保存期更长这点我有疑问，之前看过一篇论文，在氮化镓上CT比FG的保存期更长，CT的漏电速度远低于 ...

每家工艺不一样吧，美光的半导体成分要是跟这个论文里说的一致，才可以当做参考。这个文章是根据海外一些媒体报道汇总的，具体更深度的，我们还不知道咯，欢迎补充完善

dboy99 · 发表于 2018-7-27 11:11

本帖最后由 dboy99 于 2018-7-27 11:14 编辑

是的，半导体不一样，确实不能混为一谈

我找了一下也没找到基于硅基半导体的对比测试结果
只是从原理上看，CT结构的漏电应该是要小于FG的，而单元漏电与数据保存期限又是息息相关，FT结构比CT更能保存数据似乎与其原理相左

dboy99 · 发表于 2018-7-27 11:19

有业内爆料，真假不知，如果是真的话，IM的第一代3D nand的烂也许真的跟单元结构有很大关系。

石头 · 发表于 2018-7-27 12:09

dboy99 发表于 2018-7-27 11:19
有业内爆料，真假不知，如果是真的话，IM的第一代3D nand的烂也许真的跟单元结构有很大关系。
...

涉及到半导体材料深层的东西了，等大佬放资料吧……

tsammammb · 发表于 2018-7-27 13:57

dboy99 发表于 2018-7-27 11:19
有业内爆料，真假不知，如果是真的话，IM的第一代3D nand的烂也许真的跟单元结构有很大关系。
...

之前不是说96层3D后喵光要放弃浮栅极结构，所以要分家么

不过之前2D NAND上瞄光的颗粒寿命貌似还可以，比东芝同代的2D Toggle颗粒要强，不过速度也慢一些

linkerlin · 发表于 2018-7-27 18:52

tsammammb 发表于 2018-7-27 13:57
之前不是说96层3D后喵光要放弃浮栅极结构，所以要分家么
不过之前2D NAND上瞄光的颗粒寿命貌似 ...

核心问题是, 大部分OEM用户不关心寿命只关心性能.

dboy99 · 发表于 2018-7-27 20:04

nand的写入速度跟寿命是有关联的，降低写入速度就可以大幅度提高寿命

美光的速度比同代的东芝慢，归根究底就是因为颗粒品质不行，不得不降低速度来提高寿命，绝对不存在美光强于同代东芝这种匪夷所思的事情。

石头 · 发表于 2018-7-27 20:11

dboy99 发表于 2018-7-27 20:04
nand的写入速度跟寿命是有关联的，降低写入速度就可以大幅度提高寿命

美光的速度比同代的东芝慢，归根究底 ...

你很好的解释了那些垃圾颗粒的原理

linkerlin · 发表于 2018-7-27 22:57

dboy99 发表于 2018-7-27 20:04
nand的写入速度跟寿命是有关联的，降低写入速度就可以大幅度提高寿命

美光的速度比同代的东芝慢，归根究底 ...

东芝的软肋是算法。
TR200
Q200
都用了很糟糕的加速算法。

kkess · 发表于 2018-7-28 13:07

linkerlin 发表于 2018-7-27 22:57
东芝的软肋是算法。
TR200
Q200

没说点上。

TR200性能一般是因为主控是PS3111定制版，这个主控只有两个闪存通道，但是作为无外置缓存它的固件已经优化到极致了，4K随机和混合读写都比SMI和Marvell的无外置缓存SATA方案强。算法不是软肋，而是强项。吃亏在主控硬件上，当然也不怪群联，这个方案本来就是打低端入门级的，比很多国产山寨型号强，又是原厂盘，就这样。

Q200的4K虽然稀烂，但是PCM8能达到5000以上，可以说是一朵奇葩。这回主控固件是东芝自己的了（硬件有可能是Marvell基础上授权而来，不过发展很多代改动很大，也可以说是东芝自己的），理论跑分（AS一类）烂吃亏在“表面缓存”上：虽然Q200有缓存，但和已经停产的老Q Pro/Q300 Pro比其实固件架构上没变，还是无缓存的表现。东芝自己没内存生产线，OEM型号的SSD很多都是无缓存设计，不想受制于人罢了。但要说Q200的固件烂，你不妨随便找个4K只有20多，PCM8能上5000的盘，且看能不能找到东芝以外的第二个？

另外，如果要用全盘SLC，过半盘掉速来说Q200不是的话。作为Q200用户，可以告诉你个法子：如果写入掉到100了，写30G文件进去，删除。等两分钟。写入速度回来了。缓存释放不积极而已（或者说，Q200需要用低速写入的过程来促使缓存释放，把盘上处于SLC模式的数据打回MLC形态，省出空间后SLC缓存才会恢复）。即便写入只有100的情况下去跑PCM8，并没有掉速出现，实际使用也没有显著影响。当然如果不爽这个算法逻辑的话，你也可以说它固件稀烂，大可以Pass掉它去选其他型号。

为什么英特尔/美光的3D闪存还在用浮栅型结构？

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源