PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

闪存耐久并非抽纸巾那么简单

[复制链接]
跳转到指定楼层
#
ggxuelei 发表于 2016-5-2 13:39 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
点击数:17657|回复数:34
OCZ的TLC SSD耐久度测试似乎出乎很多人意料了,原厂特挑送测的阴谋论也起来了,作为局外人我不知道内情,我只说说我自己对“耐久度”的理解,如有错误还请指正。如果你对耐久度测试话题很关心,我建议你耐心看完再评论。

大家都知道闪存都有擦写寿命,TLC比MLC每个单元存储的数据更多,擦写次数多了后相对更容易出错,所以TLC不如MLC耐用。这些都是常识,我不会重复这些内容浪费大家时间。我的想法是:闪存耐久度并无定数、闪存的寿命消耗并非是抽纸巾一样用完立毙。

1.随着制程缩微,闪存素质并非一成不变,但SSD整体的耐用度并没有大幅下滑。这是因为耐久度并非定数,闪存自身之外还有主控的因素。

25nm的时候大家说MLC普遍擦写寿命是3000次,到现在1z nm制程下MLC的擦写寿命有多少次?很多人不信MLC=3000次之说了。记得前年有人说东芝A19 MLC的耐久度不足2000次擦写,而同样是东芝原厂A19 MLC闪存,OCZ ARC100的健康度就是按照3000次擦写计算的,这算是一种隐性的可用性保证吧。当然现在SSD厂商基本都不会把颗粒擦写次数当作耐用度指标,而是用与写放大无关的主机写入量来表达。

大家都希望闪存有一个明确的耐用度标称值,但我并未见到有哪家原厂会给自家出产的闪存明确标出擦写次数的,即便是泄漏出的某些内部PDF文档也只是标注了设计目标擦写值,以及要达到此目标所需的ECC纠错能力底线。近几年主控的纠错能力一直在提高,所以尽管闪存自身耐用素质是不断下滑的趋势,但SSD总体可用性并没有出现一些人所恐惧的崩溃式下滑。

上图是PHISON近几年主控的一个对照表,PS3110的ECC纠错能力从上代的BCH 72bit/1K提高到120bit/2K,这才满足了TLC闪存的纠错需求。如果用PS3110去配古老的24nm SLC(如果你还能找到新的),理论上做出的SSD耐用度表现会比PS3108更好,但实际没人这么做,不仅仅是因为老颗粒停产了,还是因为大家都在压缩成本提高容价比,没人会做逆时代潮流的事情自讨苦吃。主控纠错能力的提升可以说是和闪存制程缩微一起发展了,此消彼长下SSD耐用程度并没有下滑太多。

TLC最初被认为只有500次以内的擦写次数,随后又因为一些耐久度测试的原因而被认为可能会具有1000~1500次擦写的能力。其实大家对闪存耐用度观念一直在被刷新,至少现在已经没有人认为TLC不能被用来制造SSD了。

2.在闪存自身素质之外,固件对SSD耐用度也有很大影响。A牌用T家的颗粒做SSD和B牌用T家的颗粒做SSD,做出来的效果可能就是不一样的。

除了主控纠错能力的因素之外,固件的作用也不容小视,相同主控及闪存搭载不同固件的现象并不少。固件在垃圾回收上做法不同导致写入放大各异;在各种异常处理上的策略完善程度不同导致在闪存出错增多时能适应和坚持的长短不同。在某个闪存单元出错增加时是直接标记坏块,还是Read Retry后擦除尝试重写,在SSD内部处理错误的同时如何对主机读写命令进行响应,如何应对用户在SSD内部处理错误的关键时刻强行关机断电造成的次生灾害,都是难题。 SSD很多时候不是写挂的,是固件自己没处理完美而崩掉的。

仔细看看某品牌SSD固件更新说明就能发现,攻城狮一般都是在干这几件事:
a.        完善错误纠正机制,大约是一方面提高错误处理时的响应,防止用户感觉卡了就拔电源硬关机,另一方面如果用户真的硬拔电了,再次开机后如何快速收拾好烂摊子以免用户再次拔电源…
b.        完善在不同平台上的电源管理兼容性,减少卡顿,防止用户感觉卡住了就直接拔电把一切都搞砸了。为了减少节能带来的卡顿,现在有些SSD干脆不支持DevSlp,因为Devslp下深度睡眠可能出的问题更多,而且支持Devslp的原本就是节能兼容问题集中的笔记本平台。

有些品牌从来不出固件更新,有人称赞这是稳定的表现,当然也可能是把特定平台上才会发生的问题留给售后去解决了;有些品牌发新固件特积极,有人批评这是固件不稳定,当然也可能会减少一些用户返修的时间成本。我写这一段的目的其实并不是说这些,而是要表达一个意思:很多SSD是闪存写死之前就被用户玩坏的、闪存耐用度在不同主控及固件搭配下是有变数的。Trion 150搭配的固件是OCZ专属SAFZ12.2,到底和公版SAFM12.2有多少区别大家谁也不知道,也就不要乱猜了。

3.SSD健康度指标并不总能准确预测SSD何时挂掉

我记得某人写了一个闪迪加强版的帖子,他用掉了38个PE,健康度掉了1%,就由此推断闪迪加强版有3000次擦写的水平。我先不说他这结论有没有错误,首先明确一点,不同厂家对SSD健康度的计算方式是不同的,有些是以备用块使用率或剩余备用块来计算健康度百分比,有的是以闪存平均擦写次数计算健康度百分比,我记得有些SandForce主控SSD的健康度计算还会综合二者情况进行显示。所以有些时候光看健康度指标是不能准确预测SSD什么时候挂掉的。

单独说OCZ这个Trion 150,因为固件BUG现在健康度压根没的显示,不过我估计能正确显示的话现在也早成0%了。耐久度测试中健康度变0而不死的也不是第一次了,谁说标称擦写次数到了就一定会挂的,这又不是从盒子里抽纸巾。

外媒测840Evo耐久度的时候是一口气不停的写,并没有考虑写入中可能已经发生的静默错误以及断电数据保存期的问题,所以测出个很妖的成绩来。现在OCZ Trion 150的测试里有高温加速模拟数据长期断电保存,有数据完整性校验,更科学了。科学的测试条件下产生超出预期的好成绩,有人怀疑也挺正常。不过OCZ不是山寨厂,大家觉得有必要让网友拿出自己的Trion 150放一起测耐久吗?虽然120G 240一块也不贵,不过我是觉得这耐久正常3年是根本用不完的,有必要再浪费钱么?排除个体差异又到底需要多少块同测才能让所有人认可?

4.写入测试中的坏块增量和SSD暴毙

Trion 150测到现在还没出坏块,是不是让人觉得这成绩更妖了?其实我并不这么认为,因为耐久度测试里显然是空盘写入,盘内没有静态数据,也就是说根本无需考虑磨损均衡,所有颗粒的擦写次数估计会非常接近,那么要挂一起挂的可能比普通使用情况下会更大一些,如果某一天E编告诉大家Trion 150一个坏块也没出突然就暴毙了,我觉得也不用大惊小怪。另外那些喊着直接写到2000PE的,请再回过头看看我测Ultra II耐久的过程,我在1200PE时候常温断电一个月没有出错,就信心爆棚的直接挑战3000,不停气写到2600+,结果直接在写入过程中暴毙了,最终到底能写多少的情况下能坚持一月以上不出错也不知道。这么测的话又回到840Evo耐久度那种老路上去了,意义不大。

因为耐久度测试过程中磨损均衡实在太好,没有提前出现坏块,让人感觉不出危机感。只要纠错能力不超出纠错能力,表现出来就都像是强劲有力非常能战,容易给人以过度的信心。现在Trion 150的耐久度测试有高温烘烤其实很好,烘烤过后读取的时候出现了速度明显下滑,很可能就是有Read Retry出现,第一次读取失败,重新调整参数后读取成功,把数据写到其他地方,这个Block擦除掉。但发生过read retry的Block并不一定就是彻底坏掉了,可能只是在长时间断电后保持数据的能力上不如其他块,主控或许认为并未达到不可用的阈值,也就没有将它标为坏块而弃用。

因为有高温烘烤模拟长时间断电,Trion 150的耐久度测试可能进行不到2600次全盘写入,不过也比我那次测试有意义的多。我现在其实并没有特别关心Trion 150最终停在哪个节点上,倒是仅有BCH 120bit/2K纠错的Trion 150就已有如此成就,不知道具备LDPC纠错的浦科特M7V会有怎样的实力呢?浦科特叫停M7V的耐久度测试实在是太失望了点。

闪存寿命并不是固定一个值,写一次少一次,绝对不能用抽纸巾的理念去想象。有些闪存可能会有一个参考值,但大多数闪存来说都是没有明确数值的,实际能达到多少次擦写依旧保持可用也和主控与固件的算法等相关,并非闪存自身素质决定一切。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
34#
石头 发表于 2016-5-15 15:48 | 只看该作者
icesof 发表于 2016-5-15 13:28
认真做过performance turning 的人会知道,调整一个变量会带来整体影响是很很难说的。半懂的人才喜欢说,我 ...

好机械的思维方式。。。。其他评测不都有数据么?所有的知识都是建立在之前的发现基础之上,你不看其他帖子么?那么多次耐久度测试,测过很多了……楼主总结出来的结论跟我们耐久测试所展现的规律现在是完全一致的。PCEVA的很多帖子都是逐步推进的,一些人的测试会让其他人总结得到一些结论;如果说有反证,你倒是拿出来啊,别上来就扣帽子,但你现在扣帽子的的概念都是含混不清的……貌似只有半懂不懂的人才会这样,为什么呢?因为动了他们的business 吧。。。。
33#
icesof 发表于 2016-5-15 13:28 | 只看该作者
本帖最后由 icesof 于 2016-5-15 13:30 编辑

认真做过performance turning 的人会知道,调整一个变量会带来整体影响是很很难说的。半懂的人才喜欢说,我们一定要找出所有的root cause

正相关,负相关,曲率什么。有些数据只有厂商内部针对特定场景才知道,但这也是不是放之四海皆准的。况且还有商业诉求上的妥协。。。
堆料。。毕竟是business 不是diy
32#
骨刺 发表于 2016-5-15 09:46 | 只看该作者
neeyuese 发表于 2016-5-8 09:07
他说的那些都是有数据依据的,只是你懒得找而已。

不拿出数据来 那他写这么文章什么意思 算科普么?
31#
骨刺 发表于 2016-5-15 09:45 | 只看该作者
石头 发表于 2016-5-8 10:20
也不知道谁在搞文字游戏,自己看不懂的就定义成伪科学

这是玩科技的论坛 不是玩文学的 立论完了要有数据支持才好 而不是长篇文字游戏
30#
石头 发表于 2016-5-8 10:20 | 只看该作者
骨刺 发表于 2016-5-8 07:03
搞这么多文字游戏  不如数据来得直接明了

也不知道谁在搞文字游戏,自己看不懂的就定义成伪科学
29#
neeyuese 发表于 2016-5-8 09:07 | 只看该作者
骨刺 发表于 2016-5-4 22:12
没有数据进行验证的所谓论证都是伪科学

他说的那些都是有数据依据的,只是你懒得找而已。

28#
骨刺 发表于 2016-5-8 07:03 | 只看该作者
石头 发表于 2016-5-4 20:31
你对伪科学的概念理解岔了,不能被证伪的才是伪科学。楼主为了限制篇幅以及让大多数人看的懂,没有拿出数 ...

搞这么多文字游戏  不如数据来得直接明了
27#
Halry 发表于 2016-5-7 16:16 | 只看该作者
用久后发现不会暴毙的ssd才是好ssd,不掉盘的ssd才是好ssd.
两块m550一前一后挂,反倒是很久以前买的sx900,自己diy的sf2281,m500都没挂过,根本没有掉盘过.
反而我最讨厌的金屎盾,三棒tlc别人用着很少说掉盘.
26#
石头 发表于 2016-5-4 20:31 | 只看该作者
骨刺 发表于 2016-5-4 20:12
没有数据进行验证的所谓论证都是伪科学

你对伪科学的概念理解岔了,不能被证伪的才是伪科学。楼主为了限制篇幅以及让大多数人看的懂,没有拿出数据而已,但拿出数据来你又该说看不懂了。。。。拿出数据则可以轻易证伪。证伪的概念自行检索。
25#
骨刺 发表于 2016-5-4 20:12 | 只看该作者
没有数据进行验证的所谓论证都是伪科学
24#
evaeva 发表于 2016-5-4 11:04 | 只看该作者
zaz 发表于 2016-5-3 21:28
闪存耐久度是下降的,现在SSD使用TLC是建立在强大ECC基础之上的,没有可以炫耀的。说句大白话,以前SSD记录 ...

你怎么不琢磨琢磨断电3.6年不出错是个什么水平?机械盘放久了不用还会坏呢
23#
zaz 发表于 2016-5-3 21:28 | 只看该作者
闪存耐久度是下降的,现在SSD使用TLC是建立在强大ECC基础之上的,没有可以炫耀的。说句大白话,以前SSD记录数据,ECC是打酱油的。现在SSD是打酱油的,全靠ECC来重建完整数据。那个好自己去想。另外现在SSD掉电后保持数据的能力大大下降了,后果自己去琢磨。
22#
cssniper 发表于 2016-5-3 14:02 | 只看该作者
wfb610 发表于 2016-5-3 10:13
反正有5年保修,你就负责用好了

保100年也不保数据啊

21#
dboy99 发表于 2016-5-3 13:16 | 只看该作者
本帖最后由 dboy99 于 2016-5-3 13:17 编辑

楼主观点:另外那些喊着直接写到2000PE的,请再回过头看看我测Ultra II耐久的过程,我在1200PE时候常温断电一个月没有出错,就信心爆棚的直接挑战3000,不停气写到2600+,结果直接在写入过程中暴毙了


我的观点:
这个类比有问题
常温下保存1个月和高温烘烤24小时完全不是一回事,如果你在1200pe时做高温烘烤24小时,说不定ultra II已经跪下了。
而150在1500pe后能抗住24小时高温烘烤,按理论值计算,约等于在常温25度下保存3.6年,这已经完全超出了标准,如果按常温保存一年来计算,只要150能通85度高温烘烤6.7小时就算达标。从24小时烘烤下降到6.7小时这中间有着相当大的余量,估算2000pe并不为过。

20#
luckdogtnt 发表于 2016-5-3 12:26 | 只看该作者
       摘自网页http://group.jd.com/thread/20000001/20871137/20000004.htm       在2015台北电脑展上,OCZ TRION 100系列就崭露头角了,从视频中的对白可以听出,这个系列的SSD去年OCZ就想上市了,但是东芝对TLC的品质要求是达到3000PE,就是和MLC一样的PE值,所以在一直在不断对TLC的品质提升做努力,直到今年7月才正式推出OCZ TRION100系列SSD。

       闪存其实也很关键,固件在不断完善,完善到最后拼的还是闪存!!!!!!
19#
nighttob 发表于 2016-5-3 10:29 | 只看该作者
powergx 发表于 2016-5-2 21:20
相比hdd 还是贵 ,否则可以把nas 的hdd 换ssd。raid6 重建快多了

HDD是非常成熟的技术
现有RAID都是以HDD为基础设计的
直接替换成SSD会有非常不确定的严重问题
大部分消费级SSD都不适用于RAID环境

18#
中华田园犬 发表于 2016-5-3 10:28 | 只看该作者
颗粒本身的质量固然重要,主控和固件算法也是重要因素之一。想当年SF2281为何被用来干“坏事”?
17#
wfb610 发表于 2016-5-3 10:13 | 只看该作者
cssniper 发表于 2016-5-3 09:09
总听见别人说535的颗粒品质非常差,搭车求证下。

反正有5年保修,你就负责用好了
16#
cssniper 发表于 2016-5-3 09:09 | 只看该作者
ccei 发表于 2016-5-2 14:57
就目前OCZ TRION 150 480G和INTEL 535 480G一样都是850元的价格下,不知道为什么要选只有三年保的TLC的TRIO ...

总听见别人说535的颗粒品质非常差,搭车求证下。

15#
Cogae 发表于 2016-5-2 21:49 | 只看该作者
看这块盘什么时候挂吧,心里好有个底
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部