PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

闪存耐久并非抽纸巾那么简单

[复制链接]
跳转到指定楼层
1#
ggxuelei 发表于 2016-5-2 13:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:17615|回复数:34
OCZ的TLC SSD耐久度测试似乎出乎很多人意料了,原厂特挑送测的阴谋论也起来了,作为局外人我不知道内情,我只说说我自己对“耐久度”的理解,如有错误还请指正。如果你对耐久度测试话题很关心,我建议你耐心看完再评论。

大家都知道闪存都有擦写寿命,TLC比MLC每个单元存储的数据更多,擦写次数多了后相对更容易出错,所以TLC不如MLC耐用。这些都是常识,我不会重复这些内容浪费大家时间。我的想法是:闪存耐久度并无定数、闪存的寿命消耗并非是抽纸巾一样用完立毙。

1.随着制程缩微,闪存素质并非一成不变,但SSD整体的耐用度并没有大幅下滑。这是因为耐久度并非定数,闪存自身之外还有主控的因素。

25nm的时候大家说MLC普遍擦写寿命是3000次,到现在1z nm制程下MLC的擦写寿命有多少次?很多人不信MLC=3000次之说了。记得前年有人说东芝A19 MLC的耐久度不足2000次擦写,而同样是东芝原厂A19 MLC闪存,OCZ ARC100的健康度就是按照3000次擦写计算的,这算是一种隐性的可用性保证吧。当然现在SSD厂商基本都不会把颗粒擦写次数当作耐用度指标,而是用与写放大无关的主机写入量来表达。

大家都希望闪存有一个明确的耐用度标称值,但我并未见到有哪家原厂会给自家出产的闪存明确标出擦写次数的,即便是泄漏出的某些内部PDF文档也只是标注了设计目标擦写值,以及要达到此目标所需的ECC纠错能力底线。近几年主控的纠错能力一直在提高,所以尽管闪存自身耐用素质是不断下滑的趋势,但SSD总体可用性并没有出现一些人所恐惧的崩溃式下滑。

上图是PHISON近几年主控的一个对照表,PS3110的ECC纠错能力从上代的BCH 72bit/1K提高到120bit/2K,这才满足了TLC闪存的纠错需求。如果用PS3110去配古老的24nm SLC(如果你还能找到新的),理论上做出的SSD耐用度表现会比PS3108更好,但实际没人这么做,不仅仅是因为老颗粒停产了,还是因为大家都在压缩成本提高容价比,没人会做逆时代潮流的事情自讨苦吃。主控纠错能力的提升可以说是和闪存制程缩微一起发展了,此消彼长下SSD耐用程度并没有下滑太多。

TLC最初被认为只有500次以内的擦写次数,随后又因为一些耐久度测试的原因而被认为可能会具有1000~1500次擦写的能力。其实大家对闪存耐用度观念一直在被刷新,至少现在已经没有人认为TLC不能被用来制造SSD了。

2.在闪存自身素质之外,固件对SSD耐用度也有很大影响。A牌用T家的颗粒做SSD和B牌用T家的颗粒做SSD,做出来的效果可能就是不一样的。

除了主控纠错能力的因素之外,固件的作用也不容小视,相同主控及闪存搭载不同固件的现象并不少。固件在垃圾回收上做法不同导致写入放大各异;在各种异常处理上的策略完善程度不同导致在闪存出错增多时能适应和坚持的长短不同。在某个闪存单元出错增加时是直接标记坏块,还是Read Retry后擦除尝试重写,在SSD内部处理错误的同时如何对主机读写命令进行响应,如何应对用户在SSD内部处理错误的关键时刻强行关机断电造成的次生灾害,都是难题。 SSD很多时候不是写挂的,是固件自己没处理完美而崩掉的。

仔细看看某品牌SSD固件更新说明就能发现,攻城狮一般都是在干这几件事:
a.        完善错误纠正机制,大约是一方面提高错误处理时的响应,防止用户感觉卡了就拔电源硬关机,另一方面如果用户真的硬拔电了,再次开机后如何快速收拾好烂摊子以免用户再次拔电源…
b.        完善在不同平台上的电源管理兼容性,减少卡顿,防止用户感觉卡住了就直接拔电把一切都搞砸了。为了减少节能带来的卡顿,现在有些SSD干脆不支持DevSlp,因为Devslp下深度睡眠可能出的问题更多,而且支持Devslp的原本就是节能兼容问题集中的笔记本平台。

有些品牌从来不出固件更新,有人称赞这是稳定的表现,当然也可能是把特定平台上才会发生的问题留给售后去解决了;有些品牌发新固件特积极,有人批评这是固件不稳定,当然也可能会减少一些用户返修的时间成本。我写这一段的目的其实并不是说这些,而是要表达一个意思:很多SSD是闪存写死之前就被用户玩坏的、闪存耐用度在不同主控及固件搭配下是有变数的。Trion 150搭配的固件是OCZ专属SAFZ12.2,到底和公版SAFM12.2有多少区别大家谁也不知道,也就不要乱猜了。

3.SSD健康度指标并不总能准确预测SSD何时挂掉

我记得某人写了一个闪迪加强版的帖子,他用掉了38个PE,健康度掉了1%,就由此推断闪迪加强版有3000次擦写的水平。我先不说他这结论有没有错误,首先明确一点,不同厂家对SSD健康度的计算方式是不同的,有些是以备用块使用率或剩余备用块来计算健康度百分比,有的是以闪存平均擦写次数计算健康度百分比,我记得有些SandForce主控SSD的健康度计算还会综合二者情况进行显示。所以有些时候光看健康度指标是不能准确预测SSD什么时候挂掉的。

单独说OCZ这个Trion 150,因为固件BUG现在健康度压根没的显示,不过我估计能正确显示的话现在也早成0%了。耐久度测试中健康度变0而不死的也不是第一次了,谁说标称擦写次数到了就一定会挂的,这又不是从盒子里抽纸巾。

外媒测840Evo耐久度的时候是一口气不停的写,并没有考虑写入中可能已经发生的静默错误以及断电数据保存期的问题,所以测出个很妖的成绩来。现在OCZ Trion 150的测试里有高温加速模拟数据长期断电保存,有数据完整性校验,更科学了。科学的测试条件下产生超出预期的好成绩,有人怀疑也挺正常。不过OCZ不是山寨厂,大家觉得有必要让网友拿出自己的Trion 150放一起测耐久吗?虽然120G 240一块也不贵,不过我是觉得这耐久正常3年是根本用不完的,有必要再浪费钱么?排除个体差异又到底需要多少块同测才能让所有人认可?

4.写入测试中的坏块增量和SSD暴毙

Trion 150测到现在还没出坏块,是不是让人觉得这成绩更妖了?其实我并不这么认为,因为耐久度测试里显然是空盘写入,盘内没有静态数据,也就是说根本无需考虑磨损均衡,所有颗粒的擦写次数估计会非常接近,那么要挂一起挂的可能比普通使用情况下会更大一些,如果某一天E编告诉大家Trion 150一个坏块也没出突然就暴毙了,我觉得也不用大惊小怪。另外那些喊着直接写到2000PE的,请再回过头看看我测Ultra II耐久的过程,我在1200PE时候常温断电一个月没有出错,就信心爆棚的直接挑战3000,不停气写到2600+,结果直接在写入过程中暴毙了,最终到底能写多少的情况下能坚持一月以上不出错也不知道。这么测的话又回到840Evo耐久度那种老路上去了,意义不大。

因为耐久度测试过程中磨损均衡实在太好,没有提前出现坏块,让人感觉不出危机感。只要纠错能力不超出纠错能力,表现出来就都像是强劲有力非常能战,容易给人以过度的信心。现在Trion 150的耐久度测试有高温烘烤其实很好,烘烤过后读取的时候出现了速度明显下滑,很可能就是有Read Retry出现,第一次读取失败,重新调整参数后读取成功,把数据写到其他地方,这个Block擦除掉。但发生过read retry的Block并不一定就是彻底坏掉了,可能只是在长时间断电后保持数据的能力上不如其他块,主控或许认为并未达到不可用的阈值,也就没有将它标为坏块而弃用。

因为有高温烘烤模拟长时间断电,Trion 150的耐久度测试可能进行不到2600次全盘写入,不过也比我那次测试有意义的多。我现在其实并没有特别关心Trion 150最终停在哪个节点上,倒是仅有BCH 120bit/2K纠错的Trion 150就已有如此成就,不知道具备LDPC纠错的浦科特M7V会有怎样的实力呢?浦科特叫停M7V的耐久度测试实在是太失望了点。

闪存寿命并不是固定一个值,写一次少一次,绝对不能用抽纸巾的理念去想象。有些闪存可能会有一个参考值,但大多数闪存来说都是没有明确数值的,实际能达到多少次擦写依旧保持可用也和主控与固件的算法等相关,并非闪存自身素质决定一切。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
nighttob 发表于 2016-5-2 14:13 | 只看该作者
应该说固件的作用比硬件还大
通过牺牲一点性能,就可以实现接近翻倍的擦写寿命,根本没必要“特挑”硬件
3#
羽落风尘 发表于 2016-5-2 14:13 | 只看该作者
M5S不正常断电210多次了


这是主控的功劳  还是固件的功劳   

4#
ggxuelei  楼主| 发表于 2016-5-2 14:32 | 只看该作者
羽落风尘 发表于 2016-5-2 14:13
M5S不正常断电210多次了

所有掉电保护都是需要硬件和固件的同时支持,这里的硬件不单纯是主控要支持,也包括要有相应的储能电路等。我认为掉电保护一般是指硬件功能,没有相应硬件电路的,固件也会有一些软件的防灾预案

M5S和现在大多数消费级SSD一样,是没有掉电保护的,但并不是说它们就没有“异常掉电防灾预案”,虽然这个预案可能没办法保全所有情况下不会死,断电瞬间进行的写入有可能会破坏盘上原有数据,FTL表也可能会有所损坏,但再次开机后会有灾后重建的预案,尽可能把变砖的几率变小。

5#
easybeing 发表于 2016-5-2 14:50 | 只看该作者
总之目前看,ssd的寿命根本不取决于芯片本身的写入次数~,特别是非测试正常使用的环境
6#
ccei 发表于 2016-5-2 14:57 | 只看该作者
就目前OCZ TRION 150 480G和INTEL 535 480G一样都是850元的价格下,不知道为什么要选只有三年保的TLC的TRION150而不选五年保MLC的INTEL。OCZ TRION150目前寿命并不高,也仅仅跑了1600PE而已,价格还极高。
7#
ggxuelei  楼主| 发表于 2016-5-2 14:58 | 只看该作者
easybeing 发表于 2016-5-2 14:50
总之目前看,ssd的寿命根本不取决于芯片本身的写入次数~,特别是非测试正常使用的环境 ...

颗粒能擦写多少次而不出错本来就同时受闪存自身与主控、固件多个部分影响,你说SSD寿命不受闪存自身影响也是不对
耐久度测试也是与正常使用一样,都是写入数据进闪存,这一点和实际正常使用是无区别的

与正常使用不同的地方:
正常使用中的写入模式多变,不是纯粹持续写也不是纯粹随机写,而且还有混合读写等多种情况出现,写入放大率会有不同的表现;而耐久度测试一般都是用持续写入,这不光是因为一般来说持续写入比随机写的要快,测的进度更快一些,也是因为持续写入的写放大最接近于1。尤其是OCZ Trion 150自身SMART不能显示NAND写入量,这本身就是个难题,只有用持续写入才能让写放大尽可能接近于1,然后表现出来的结果更接近于闪存能擦写多少次而不出错。现在这个耐久度测试方法应该说是科学的,也是最佳的选择
8#
ggxuelei  楼主| 发表于 2016-5-2 15:02 | 只看该作者
ccei 发表于 2016-5-2 14:57
就目前OCZ TRION 150 480G和INTEL 535 480G一样都是850元的价格下,不知道为什么要选只有三年保的TLC的TRIO ...

Trion 150 480G淘宝有699的,不知道你说的850是哪里的价格,淘宝Intel 540s 480G倒是800多不假
当然我不是卖货的,不想跟人讨论哪个更值的问题,如果你认为我这是推销Trion 150,那么你可以离开了
9#
doymll 发表于 2016-5-2 16:40 | 只看该作者
我开心的是.OCZ居然有后来的咸鱼翻身.
我居然还买了3块150.
我居然还会继续支持他..
10#
china17 发表于 2016-5-2 16:44 | 只看该作者
ggxuelei 发表于 2016-5-2 15:02
Trion 150 480G淘宝有699的,不知道你说的850是哪里的价格,淘宝Intel 540s 480G倒是800多不假
当然我不 ...

他说的是某宝,某东的价格就高的多了,某东物流快,售后方便些,退换货还上门取件,方便
11#
einstein86 发表于 2016-5-2 16:58 | 只看该作者
大约99%的桌面用户都无法在保修时长(特指1-3yrs保修的)内把PE寿命消耗完。与其纠结PE数不如纠结暴毙之后的数据救难。
12#
蓝天翔燕 发表于 2016-5-2 17:27 | 只看该作者
纵观全文,感觉一块SSD的耐久度其实取决于NAND芯片素质、主控能力、固件水平和外部环境。如果NAND芯片正牌,那么主要视乎主控的纠错能力和固件水平。当然环境变量比较大,只能尽量认为是正常情况。个人感觉SSD死于暴毙和死于强制掉电的机会会比较大。
还是那句,无论是什么介质,重要数据还是要靠多备份,勤备份。不能只寄望SSD身上。毕竟SSD坏了拿去保修或者换新都行,重要数据丢失就不是一块SSD的事那么简单了
13#
Xeon1230 发表于 2016-5-2 17:42 | 只看该作者
SSD是一个整体,不仅仅是颗粒

话说这仅仅是BCH就能这么牛,也太出乎意料了
14#
zxy356 发表于 2016-5-2 19:59 | 只看该作者
还在用840 的路过
15#
powergx 发表于 2016-5-2 21:20 | 只看该作者
相比hdd 还是贵 ,否则可以把nas 的hdd 换ssd。raid6 重建快多了
16#
Cogae 发表于 2016-5-2 21:49 | 只看该作者
看这块盘什么时候挂吧,心里好有个底
17#
cssniper 发表于 2016-5-3 09:09 | 只看该作者
ccei 发表于 2016-5-2 14:57
就目前OCZ TRION 150 480G和INTEL 535 480G一样都是850元的价格下,不知道为什么要选只有三年保的TLC的TRIO ...

总听见别人说535的颗粒品质非常差,搭车求证下。

18#
wfb610 发表于 2016-5-3 10:13 | 只看该作者
cssniper 发表于 2016-5-3 09:09
总听见别人说535的颗粒品质非常差,搭车求证下。

反正有5年保修,你就负责用好了
19#
中华田园犬 发表于 2016-5-3 10:28 | 只看该作者
颗粒本身的质量固然重要,主控和固件算法也是重要因素之一。想当年SF2281为何被用来干“坏事”?
20#
nighttob 发表于 2016-5-3 10:29 | 只看该作者
powergx 发表于 2016-5-2 21:20
相比hdd 还是贵 ,否则可以把nas 的hdd 换ssd。raid6 重建快多了

HDD是非常成熟的技术
现有RAID都是以HDD为基础设计的
直接替换成SSD会有非常不确定的严重问题
大部分消费级SSD都不适用于RAID环境

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部