PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

【原创】浴室来谈NAND Flash的底层结构和解析。

  [复制链接]
跳转到指定楼层
1#
neeyuese 发表于 2010-12-13 05:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:21090|回复数:33
本帖最后由 neeyuese 于 2010-12-13 12:55 编辑

这里我想以一个纯玩家的角度来谈谈关于NAND Flash的底层结构和解析,可能会有错误的地方,如果有这方面专家强烈欢迎指正。


NAND Flash作为一种比较实用的固态硬盘存储介质,有自己的一些物理特性,需要有基本的管理技术才能使用,对设计者来说,挑战主要在下面几点:

1.需要先擦除才能写入。
2.损耗机制,有耐久度限制。
3.读写时候造成的干扰会造成数据出错。
4.数据的保存期。
5.对初始和运行时候的坏块管理。

只有至少满足这些基本的管理技术,才能让NAND Flash成为一款可以使用的固态存储介质。(这里还没有谈到任何关于性能的地方,因为那是这些基本条件满足后的事。)

当满足了上面的5点后,才该谈到稳定,性能,耐久度,影响这些的5大因素为:

1.SLC和MLC
2.平衡磨损算法
3.透过坏块管理技术确保数据的完整性。
4.使用错误检测和校正技术
5.写入放大


只有满足了这些条件,才能得到一款理想中的完美的固态硬盘。



-----------------------------------------------------------------------


Flash全名叫做Flash Memory,属于非易失性存储设备(Non-volatile Memory Device),与此相对应的是易失性存储设备(Volatile Memory Device)。关于什么是非易失性/易失性,从名字中就可以看出,非易失性就是不容易丢失,数据存储在这类设备中,即使断电了,也不会丢失,这类设备,除了Flash,还有其他比较常见的如硬盘,ROM等,与此相对的,易失性就是断电了,数据就丢失了,比如大家常用的内存,不论是以前的SDRAM,DDR SDRAM,还是现在的DDR2,DDR3等,都是断电后,数据就没了。

Flash的内部存储是金属-氧化层-半导体-场效晶体管(MOSFET),里面有个悬浮门(Floating Gate),是真正存储数据的单元。



数据在Flash内存单元中是以电荷(electrical charge) 形式存储的。存储电荷的多少,取决于图中的控制门(Control gate)所被施加的电压,其控制了是向存储单元中冲入电荷还是使其释放电荷。而数据的表示,以所存储的电荷的电压是否超过一个特定的阈值Vth 来表示。

1.对于NAND Flash的写入(编程),就是控制Control Gate去充电(对Control Gate加压),使得悬浮门存储的电荷够多,超过阈值Vth,就表示0。

2.对于NAND Flash的擦除(Erase),就是对悬浮门放电,低于阀值Vth,就表示1。


NAND Flash的架构:




如上图所示,这是一个8Gb 50nm的SLC颗粒内部架构。

每个page有33,792个单元,每个单元代表1bit(SLC),所以每个page就是4096Byte + 128Byte(SA)。
每个Block有64个page组成,所以每个Block容量为262,114Byte + 8192Byte (SA)

page是NAND Flash上最小的读/写单位(一个page上的单元共享一根字符线Word line),块是最小的擦除单位(。不同厂牌不同型号颗粒有不同的page和block大小。

下图是个8Gb 50nm的SLC颗粒。




4KB的页尺寸,256KB的块尺寸。图中4096字节用于存储数据,另外128字节用来做管理和ECC用。


SLC 和 MLC 区别:

SLC主要针对军工,企业级应用,有着高速写入,低出错率,长耐久度特性。
MLC主要针对消费级应用,有着2倍容量于SLC,低成本,适合USB闪盘,手机,数码相机等储存卡。如今也被用于消费级固态硬盘上。




由上图可以看到,MLC和SLC虽然使用相同的电压值,但是电压之间的阀值被分成了4份,直接影响了性能和稳定性。主要有下面几点:

1.相邻的存储电荷的悬浮门间会互相干扰,造成悬浮门里的电荷不稳定出现bit错误,MLC由于阀值相比SLC更接近,造成出错几率更大。
2.MLC读写性能降低,写入更是降低50%以上,因为需要确认充入电荷的量,这需要更精确的处理。SLC只有0和1,也就是有和没有,而MLC会有00,01,10,11 4个状态,在充入电荷后还要去判断是哪个状态,自然就慢了。
3.因为上面说的,造成额外的读写压力,所以功耗明显增大。
4.因为额外的读写压力,造成闪存的写入耐久度和数据保存期受到影响。

eMLC和eSLC的耐久度提升是用牺牲了数据保存期和增加读写时间换来的。(也就是性能会更差点)

-------------------------------------------------------------------

挑战1:需要先擦除才能写入。




当今的NAND Flash可以读/写一个page,但是必须以block大小擦除。

擦除操作就是让块中所有的bit变为1,从一个干净的“已擦除”状态的block重新开始。当里面的页变为0后,只有擦除整个块才能让这个页变为1。为了尽量减少擦除的次数,成熟的块管理技术必不可少。


挑战2:读/写干扰。

NAND Flash的电荷非常不稳定,在读/写中很容易对邻近的单元造成干扰,干扰后会让附近单元的电荷脱离实际的逻辑数值,造成bit出错,因为阀值接近的关系,MLC相对SLC来说更容易受到干扰。



读取干扰



写入干扰

读取干扰指的是在读取某个page时,邻近的bit会受到升高电压的干扰,造成bit出错。写入干扰指的是,某个page在写入时,邻近bit的电压也被升高了,造成bit出错。相对写入干扰来说,读取干扰明显小的多。在读/写干扰中,可能造成某些bit被改变,结果造成数据出错。所以需要在返回数据给主机前,用ECC/EDC算法来纠正这些bit的错误。随着闪存工艺的提升,同样大小的晶片上被封装入更多的单元,造成干扰越来越厉害,所以需要更强大的ECC/EDC来纠正bit。


挑战3:数据保存期限

数据保存期指的是当完全断电后,数据能在NAND Flash里保存多久。NAND单元必须保证一个稳定的电压水平,来保证数据是有效的。典型的SLC一般为10年。电荷从悬浮门里漏出,我们叫做电子迁移,当随着时间的流逝,电荷泄漏到一定程度,改变了NAND单元里悬浮门的电压对应的逻辑值,这样就造成bit出错。




数据保存期会随着擦写次数的增加而明显降低,而且从上面的原理中看出,MLC的数据保存期明显会比SLC少。(更容易被干扰)


挑战4: 坏块

NAND Flash里有2种坏块类型:

1,出厂坏块:由于为了保证产量和控制成本,出厂的NAND Flash某些就会有坏块。厂商保证SLC出厂坏块低于2%,MLC出厂坏块低于5%。
2,积累坏块:在多次的写入/擦除循环中,某些NAND单元的电荷电压被永久性的改变了,那就意味着包含这个NAND单元不可用了。

所以固态硬盘需要有坏块管理才能使用,主控制器用坏块表来映射出厂坏块和积累坏块到坏块区内,出厂时,颗粒的第一个块Block 0厂商会保证是可用的(至少ECC后可用)。



挑战5:擦写次数限制

造成NAND Flash有擦写次数限制的主要有2个因素:

1,电荷被困在氧化层,不能进入悬浮门。
2,氧化层结构被破坏。




如图,一旦氧化层损坏到达一定程度,造成电荷越来越难在P-substrate和悬浮门之间交流。电荷被困在氧化层造成悬浮门中的电压到不了阀值,所以说这个NAND单元就要被放入坏块区了。

当前主流SLC的P/E为10万次,50nm MLC为1万次,3xnm的MLC为5000次。到了这个数字并不意味着就不能用了,这个只是代表平均寿命,也就是说到了这个次数后,坏块就会开始大量增加了。

随着工艺提升,ECC的要求越来越高,50nm的SLC颗粒,三星规定1bit ECC的就够了,而50nm MLC要4bit ECC,到了3xnm要求达到24bit ECC。


-----------------------------------------

附; ECC

影响NAND Flash稳定性和耐久度的一个主要因素就是ECC能力,目前最常用的三种算法是:

1.Reed-Solomon。2.Hamming。3.BCH (Bose, Ray-Chaudhuri, Hocquenghem)

不管何种ECC算法,何种主控,检测错误的方式是相同的:




1.每当一个page写入NAND Flash,数据会通过ECC引擎,创造独特的ECC签名。
2.数据和对应的ECC签名存都存放在NAND Flash里,数据放在数据区,ECC签名放在 SA区。
3.当需要读取数据时,数据和ECC签名一起被送往主控制器,此时新的ECC签名被生成。
4.此时主控把2个签名对照,如果签名相同,说明数据没有错误,数据就会被送往主机。如果签名不同,数据就会先放在主控里,而不是直接送往主机。

某些主控会把改正后的数据再次写回闪存,另一些则不会,因为谁也不知道下次读取会不会再出错。

ECC的能力直接关系到NAND Flash的耐久度,数据保存期。当NAND Flash的P/E数到了之后,错误数会越来越多,ECC弱的直接就报坏块并标记退休,如果ECC能力足够强,就能挖掘出Flash所有潜力。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
ytotok 发表于 2010-12-13 10:03 | 只看该作者
坐沙發開始學習!
3#
53299009 发表于 2010-12-13 12:23 | 只看该作者
占前排卖瓜子矿泉水{:3_62:}
4#
大D来了 发表于 2010-12-13 12:39 | 只看该作者
浴室的帖子必须占位卖瓜子喝水再看
5#
snake8718 发表于 2010-12-14 01:39 | 只看该作者
还是没看懂~~~
6#
James007ss 发表于 2010-12-14 01:57 | 只看该作者
人虽多,要找浴室这种用户也不容易,钻这么深。;P
7#
okko 发表于 2010-12-14 23:53 | 只看该作者
表述准确,值得学习的好文。

关于ECC, hamming最弱,1bit纠错,只能给早期的SLC用,早期MLC用RS,对于现在的flash他们都不够用了
8#
lqmouse 发表于 2010-12-14 23:56 | 只看该作者
:victory: 好长,没时间看完,收藏先!
9#
travis 发表于 2010-12-20 18:10 | 只看该作者
一个名词纠正一下,MOS管的“gate”对应中文名称是“栅极”,Control Gate就是控制栅,Floating Gate就是浮栅
10#
DICKLI 发表于 2010-12-22 15:15 | 只看该作者
板凳,学习ING
11#
rocketeer 发表于 2010-12-26 22:08 | 只看该作者
用hi-K的材料吧!
12#
rocketeer 发表于 2011-1-5 14:44 | 只看该作者
有几个问题想问大姐大:
1)控制阀的工作电压为多大?
2)Source / Drain的电压为多大?
3)Cell损坏是指氧化层被击穿而导致有电子不能被有效困在控制阀之内还是其它原因(例如电子迁移將其磨薄)?那麽氧化层有多厚呢?是用SOI技术生成的吗?4)XX纳米是指source和drain之间的距离?
谢谢大大的指点!
13#
rocketeer 发表于 2011-1-6 00:14 | 只看该作者
請LZ幫幫忙!
14#
neeyuese  楼主| 发表于 2011-1-6 07:13 | 只看该作者
15#
oxoooooooo 发表于 2011-1-8 08:15 | 只看该作者
本帖最后由 oxoooooooo 于 2011-1-8 08:16 编辑

文中提到了数据保存期,请问
SLC MLC eMLC eSLC 这四种Nand它们设计规格中最短数据保存时间是多久?
也就是我多长时间不用它,也不给它通电,多少时间后就会有可能会数据丢失?

还有一个疑惑: 对于一片NAND,我一直或经常给它供电(但不修改数据),会不会比让它一直处于断电状态可以更长久的保存数据?
16#
neeyuese  楼主| 发表于 2011-1-8 12:03 | 只看该作者
工艺,规格,保存期都不同,请查颗粒datasheet。
擦写次数不同,时间不同。
只要你在供电,内部就会来回操作,不存在不修改数据的可能。
17#
oxoooooooo 发表于 2011-1-8 14:38 | 只看该作者
工艺,规格,保存期都不同,请查颗粒datasheet。
擦写次数不同,时间不同。
只要你在供电,内部就会来回操 ...
neeyuese 发表于 2011-1-8 12:03


难道数据保存时间就没有一个具体的业界规范? 像SLC会有100K次,MLC 10K次擦写寿命规格一样。
否则以后上eMLC,  我等半桶水岂不要生活在数据丢失的恐惧中? 出个长差,回来发现数据没了。。。(这个是夸张的说法)


供电,也不一定来会操吧? 本篇讲的是Flash,不是SSD。 :)
18#
neeyuese  楼主| 发表于 2011-1-8 17:07 | 只看该作者
SLC 10万次,MLC 1万次只是厂商标示,不是业界规范,如果厂商要隐瞒也很简单。
eMLC在厂商给出的擦写次数过后,数据保存期为3个月附近,还要看环境温度等。
内部不操作如何更新电荷保持数据稳定性?我就是讲的Flash。
19#
oxoooooooo 发表于 2011-1-10 08:23 | 只看该作者
受教了~~~~~ :)
20#
zxcv886 发表于 2011-1-15 09:24 | 只看该作者
晕~~没想到还有个数据保质期
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部