PCEVA,PC绝对领域,探寻真正的电脑知识
开启左侧

【补档】Intel告诉你企业级硬盘和消费(桌面)级硬盘的区别

[复制链接]
nighttob 发表于 2014-7-29 16:40 | 显示全部楼层 |阅读模式
点击数:21993|回复数:8
本帖最后由 nighttob 于 2014-7-29 23:41 编辑

此帖为本人补档,内容略作修改,所以与原帖不同

本文是Intel的一篇指导文档的翻译。08年的,有段时间了,但道理是没差的。


注意:本文内提及的“企业级硬盘”,指的是万转(10k/15k)SAS/SCSI机械硬盘,而不是企业级SATA硬盘。SCSI协议具备比ATA协议更完善的可靠性和可用性设计,其重要程度不亚于企业级对消费级的优势。因此即使都是企业级硬盘,SAS/SCSI硬盘搭配专业HBA/RAID卡,可靠性、可用性和性能等方面也要优于SATA企业级配置。阅读完本文以后,不要“不明觉厉”地认为企业级总是好的,没有合理的硬件配置同样不能完全发挥企业级优势。

原文PDF(英文)



文章里只说到了企业级和消费级的几个比较大的区别,还有一些细小的没有提到,我也不会自行补充,这些大点就足够体现两个级别间的差异了。


很多人都对企业级盘有“莫名”的好感,但绝大多数不知道企业级好在哪儿,这些好处都有没有用(自己家用能不能用得上)。这里会告诉你一些真正企业级所关注的东西,而不仅是数字上表现出的片面优势。

下面开始。(专有名词和复杂句式有很多,我的英语水平也有限,很多自己能看懂但未必能再表达清楚,所以大家多担待。蓝字是我的补充说明)




首先引言部分就略过了,只是引出话题——企业级和消费级的选择。

然后是简单阐述了下企业级系统(以下都称作“服务器”)和消费级系统(以下都称作“台式机”)功能、用途上的不同,相应地对硬盘的要求也不一样。

台式机基本上只运行本地操作系统和应用,很多场合下存储也不保存在本地,而是网络的存储服务器上。服务器不仅要运行自己的操作系统和应用程序,也要承担网络上的存储任务,这也就要求更大的存储空间,同时要求可用性和可靠性。台式机和服务器功用上的不同,也就使得两者在选用硬盘时有不同的需求,这种需求反过来影响硬盘设计的稳健性、增强可靠性的措施还有价格这些因素。下面表格简述了台式机和服务器功用上的区别,每项区别都会在后面具体描述。
台式机服务器
运行时长每周5天,每天8小时每周7天,每天24小时
工作负载10%-20%100%
价格因素追求低价格与可靠性、可用性和数据完整性需求相平衡
性能低到中
可靠性中等
1. 电脑罢工只影响一个用户
    a. 关键数据通常不存储于本地
    b. 可以容忍因错误修复引起的卡顿
2. 可以接受较低的平均无故障间隔(MTBF)

1. 服务器罢工会影响众多用户
2. 高MTBF
3. 不能容忍卡顿的发生
数据完整性适中(出错仅导致本机罢工或者关键数据损失)高(出错会导致灾难性的多用户关键数据损失)
这里说的台式机都是设计意义上的“消费级环境”,也就是表格里写的5x8运行,实际上就未必是这样了,但不是说开机时间长就是服务器了,要综合看各个方面。
不要太较真,意思就是台式机好坏都是一个人用,而服务器是供多数人用的,因此二者考量的指标就不一样


接下来就是分项具体解释企业级硬盘和消费级硬盘上的区别了。

为了满足相应的要求,硬盘制造商设计制造的消费级硬盘和企业级硬盘会有显著差异。这里会介绍这些差异,以及如何通过设计和功能的差异实现硬盘的分级。本文内容不包括针对特定厂商的内容,都是共性,并且会解释这些功能是如何起作用的。现实中的企业级硬盘和消费级硬盘并不是泾渭分明的,一些消费级硬盘同样可能包括企业级特性,同样,企业级硬盘也不一定会具备全部企业级特性。

一、运行时长和工作负载

台式机设计用在要求不高的环境中,通常只有一块硬盘,或者一个镜像组(RAID 1)。只有有限的操作系统和应用程序的读写访问,在不用的时候会关机或者长时间空载待机。

服务器会有很多硬盘,而且为了容量和可靠性要求会组成一个存储子系统。比如4盘RAID 10用来运行操作系统,还有其他的多个RAID 5/6阵列用来存储客户机的数据。服务器不仅要运行自己本身的操作系统和应用程序,还要全天候处理来自客户机的数据访问请求。在非高峰时段,服务器就要做硬盘错误检查、系统备份和其他维护工作。在业级工作环境中,硬盘的各个部件都会经受严酷考验,同时会产生额外的热量和震动,因而企业级硬盘具备更强韧部件和更适应复杂条件的固件。

毕竟原文比较老了,虽然现在家用会有SSD+HDD的组合,但运行系统和程序的也还是是单一的一块盘,用来做附加存储的盘是不算的。但服务器不管用不用SSD都会是RAID 1/10 + RAID 5/6的组合。

二、价格因素

消费级平台对价格很敏感,部分原因是台式机相对于服务器数量要庞大的多(个人觉得这句意义不明……)。台式机运行用户特定的程序,也就是说对本地硬盘的压力较低,而且很分散。企业级平台对价格就不甚敏感了,因为服务器总是要运行多个企业应用,而且硬盘要在保证可靠和可用的情况下持续高负载。服务器上通常会有大量的硬盘,要支持额外的功能也就要在存储设计上下更多的成本。

这还是说台式机能给本地硬盘的压力不高,所以没必要也没必要用好的。服务器上硬盘多,工作也多,为了保证可靠可用也值得多花钱买更好的硬盘,企业级盘上也有额外的功能(比如自加密),这在一定程度上也增加了成本。就存储子系统来说,热插拔背板、硬盘状态指示、主动式散热这些也是成本的一部分。

三、性能

企业级硬盘有一系列内部机制可以增强性能,像更重的致动器磁体(音圈马达的磁体,用于驱动磁头臂)、更快的转速、更高的磁密度、更大的磁盘缓存和更高频的主控。

企业级硬盘的要求高,对内部各个部件的等级要求也就高。

四、可靠性

这个是重点,所以要详细说。

1. 坏扇区恢复

消费级硬盘一旦出现坏扇区,经常会导致操作系统和应用程序的崩溃。通常情况下,台式机系统不会提供扇区级别的在线数据备份,要恢复坏扇区上的数据,消费级硬盘就会不断尝试去重读取这个扇区,直到被判定为“不可恢复读取错误”。在这一过程中,硬盘可能会无响应,也可能会忽略主机总线的复位指令,也就是表现为卡顿了。当硬盘失去响应的时间超过一个期间后,操作系统、应用程序和用户就需要等待重新恢复响应。消费级硬盘的卡顿可长达几分钟,而且这段时间内硬盘不接受任何指令。

在服务器上,这种长时间的卡顿是完全不可接受的,因为会有很多用户会受到影响,而且RAID阵列同样不容忍失去响应的硬盘。企业级硬盘有一个功能就是“短指令超时时限”。当硬盘发生扇区读取困难,且卡顿超过这个值以后,硬盘会反馈“正在尝试从扇区校验数据中恢复数据”的信息。如果尝试失败,硬盘就会通知主机控制器尝试从阵列冗余校验数据中恢复扇区数据,并重映射这个坏扇区。“短指令超时时限”可以让扇区数据恢复操作有效进行,并且不影响硬盘对系统指令的响应。这个时限一般定义在7到15秒之间,而且重试次数也有一定限制。

指令超时时限超过30秒的消费级硬盘就不应该用在服务器上。经常的卡顿导致掉盘会使操作系统崩溃、关键任务失败等悲剧。

这个应该大家都遇到过,不一定是真正的坏扇区,但就是读取困难,卡顿很长一段时间。消费级硬盘由于面向个人用,也就可能不限制指令超时时限或者这个值很大。因为PC上并没有普及RAID,所以坏扇区数据恢复就只能靠一遍一遍的重读。相对于系统卡顿,多数情况下还是救回数据更重要,但真是物理坏扇区,这种做法的效用也存疑。到了阵列上面,这种卡顿就很要命了,长时间的无响应结果就是被踢出阵列,用消费级硬盘组阵列的都有很大几率遇到。说到这儿应该很多人都想到了现在兴起的所谓NAS硬盘,这种盘其实就是固件里设置了符合要求的指令超时时限,物理规格上跟一般的消费级硬盘并无差异。而且各个厂商给自己的“新技术”取的名字也是各不相同,比如西数叫TLER、东芝叫CCTL、希捷用ATA的标准叫法ERC——"SCT Error Recovery Control command"。

2. 旋转振动

旋转振动就是随着硬盘盘片的转动产生的振动,单位Rad/s^2。硬盘制造商通常只标称盘片转动引起的振动,而不提及高频振动的影响。

振动会影响硬盘的工作。振动源可以来自系统内任何运动部件,比如机箱内的风扇和相邻的硬盘,甚至是硬盘自身产生的振动传导到整个机箱后再反过来影响自己。当硬盘进行读写操作的时候,这些振动就会使磁头难以对准磁道。如果不能对此进行补偿修正,那么就会偏离磁道。这可能导致写入到别的磁道上,或者读取到错误位置的数据上。

企业级硬盘可以通过感应振动幅度和磁头与磁道对齐来提供更精密的振动补偿,可以通过额外的驱动力或者等待盘片再次旋转到目标位置再重新读写。某些补偿偏离的形式会对性能有剧烈的影响,需要时间使磁道重新对准磁头,试验中曾发现过高达90%的性能损失。具体性能损失的多少要根据振动频率和强度而定。

振动不仅恼人,而且确实会影响硬盘的性能,当然剧烈振动还会给硬盘造成物理损坏。所以硬盘的安装平台一定要牢靠,不然就是又慢又吵。如果你确定盘是好的,但是HD Tune跑出来的曲线奇烂无比,那么就要看看是不是安装不牢或者机箱共振了。企业级盘有更多的振动感应和振动补偿机制,可以在较高振动的环境中依然保持高性能,这一点后面会说。

3. 偏离检测

多数硬盘在磁道里都有多个“伺服楔”,硬盘固件会持续监控这些楔以使磁头对准磁道。如果固件探测到偏离,那么就会暂停读写直到磁头重新对准磁道。消费级硬盘只有少量“伺服楔”,或者只有一个混合伺服及数据通道处理器。在只有单个处理器时,硬盘无法在写入操作时保持磁头对准磁道。绝大多数消费级硬盘既没有专用的伺服和数据通道处理器,固件里也没有补偿算法,这就使得消费级硬盘更容易受到旋转振动的影响,从而导致糟糕的性能。绝大多数企业级硬盘具备专门的伺服和数据通道处理器和伺服算法用于振动补偿。

这是接着上一点说的,很多人抱怨振动,也想了很多方法“企图”从外部“解决”振动的问题,但结果只是从听觉上“解决”而已,振动对硬盘本身的影响靠减震垫是不管用的。专门的伺服处理器其实并不是企业级独有的,西数的黑盘一直都是拿双处理器作为卖点之一,其中的一个就是振动感应处理器,因此卖的贵也是有道理的。

4. 振动传感器

多数企业级硬盘都有振动传感器回路,这些传感器可以在音圈马达(伺服)移动磁头时检测硬盘的运动状况,以使读写时磁头移动更精确可靠。但当伺服和数据通道处理器合在一起的时候就没什么用了。企业级硬盘具备磁头到主轴的闭环反馈系统,可以探测振动异常并做出相应地反应。

两张图就是描绘下没有振动补偿(消费级)和有振动补偿(企业级)在有自身旋转震动时候的反应。

消费级硬盘没有复杂的机制用来补偿振动,致使(寻道)出错,使得性能大幅损失而且还有较高的错误率。企业级硬盘就能有效地侦测和补偿振动。

振动会产生的症状包括硬盘性能低下、大量寻道错误以及增加掉盘风险。另外,某些型号的硬盘在振动恶劣的情况下还会出现数据损坏的状况。

2,3,4是相互关联的,都是在讲振动对硬盘的影响,以及相应的解决方案。这些方案都是对硬盘性能来说的,并没考虑到用户的主观感受。既要有全面的振动补偿机制,同时硬盘的噪音还要低,那是不可能的。都知道黑盘性能高,有双处理器,但黑盘也是7200转消费级硬盘里面噪音最大的。数据中心里面用的企业级硬盘更加不在乎噪音的问题,所以自己家用选择企业级,也许可靠性更有保障,但噪音这个副作用也要引起足够重视。

5. 数据完整性

企业级系统中的一项功能就是端到端的错误检测,在数据传输的每个阶段都伴随着校验。一旦发现错误就可以马上被发现,某些情况下还可以直接纠错或者要求重新传输数据。尽管消费级系统也有一些错误侦测机制,但并不能提供完整的端到端数据保护。比如说台式机没有ECC内存,消费级硬盘的外置缓存也不带ECC。而企业级系统是贯穿数据传输的每个阶段的,包括支持ECC的系统内存和硬盘上的外置ECC缓存。下面这个图就可以表现出。

这张图就是主机到存储介质(盘片)的数据路径。企业级和消费级硬盘的一大区别就是外置缓存带不带ECC,其余的部分基本相同。主机到硬盘接口要做CRC校验,硬盘接口到外置缓存要生成ECC校验位,外置缓存到主控要校验ECC,主控驱动写入盘片要生成校验信息。这是写入步骤,反过来读取就是,主控从盘片读取校验信息,生成ECC校验位发送到外置缓存,外置缓存到硬盘接口校验ECC,并加入CRC再发往主机。

企业级硬盘具有ECC缓存和额外的错误侦测手段,具体的错误侦测和纠错手段都是各硬盘厂商专有的。消费级硬盘由于没有ECC缓存也就缺失了一环数据保护,如果数据传输到缓存时候出错了,那么错误就会被带到下一阶段,一直到写入到盘片上或者被主机读取。这种错误很难被发现,而且会影响到操作系统的稳定和用户数据的可靠性。

这一点其实看过浴室的SSD评测都能有理解,这里似乎是特别围绕ECC缓存来说了,因为这确实是常被忽视的一点,当然也包括系统内存是否具备ECC。就像“端到端”字面意义上的理解,从存储介质到最终执行端每个阶段都要有校验机制保护数据。像我们可能遇到的,SMART B8值标红,就是发生了端到端错误,一般也是出在缓存上。B8标红的也就建议马上更换硬盘了,因为无法保证写入和读取的数据是不是正确的了。还有一种情况就是超频玩家会遇到的,特别是超内存不稳定,进系统就崩溃了,再重启就无法进系统,这就是内存出错,写入到硬盘的数据也就是错的,然后系统就崩溃了。用MT烤内存也就是检验内存的数据完整性。但合格的内存在标称频率下都是很可靠的,长期通电且使用率较高的话容易增生错误,这也是为什么服务器都要配备ECC内存的原因之一。

6. 可变扇区尺寸

很多企业级硬盘,特别是SCSI和SAS硬盘,具备一定程度的可变扇区尺寸。可以设置扇区尺寸为528字节,并且可以让IO控制器,通常来说就是RAID卡,设置成512字节用以存储数据,剩下的扇区空间用来做扇区校验。这就可以让IO控制器能够实现额外的数据保护能力,可以通过这一层保护恢复数据,而且IO控制器还可以通过这项措施追踪及重映射有错误的硬盘区域。

消费级硬盘就没有这项功能了,扇区尺寸被固定为512字节,当然,每个扇区依然有一小段保留空间用来做扇区校验。这个依然做够发现扇区错误,但没有办法重建扇区并恢复数据,也就是说这只能作为检测数据完整性的机制。

一些硬盘制造商也在努力实现企业级SATA硬盘的可变扇区功能。更大的扇区尺寸也将未来实施。

这一点就少有人知道了,因为基本上是必要专业RAID卡+SAS盘才能实现,但是用处真的很大。想想最开始说的坏扇区恢复那一部分,更大的校验空间也就有了更大的数据恢复能力,而不需完全依赖阵列的冗余能力。经过512字节扇区到4K扇区的转换,很多人都知道扇区后面其实还有一部分空间用作数据校验,包括SSD上面也有类似的机制。

更改默认扇区尺寸,多数情况下会使格式化后容量下降,举例如希捷Savvio 15K.2。

格中数字单位是扇区数。以146G的为例,在默认512字节/扇区格式时格式化后容量是146,815,737,856字节(136.73GiB),格式化为528字节/扇区后缩小到143,967,613,680字节(134.08GiB)。

7.
功能回顾

下面这个表格列举了企业级硬盘和消费级硬盘功能上的区别。硬盘制造商会在不同型号的盘上特定一些功能。大体上说最高端的是企业级SAS盘,最低端是消费级SATA盘,而企业级SATA盘就在两极之间的某处。
功能企业级消费级
主轴电机更高转速
轴面偏移量小
主轴两端固定
低到中转速
轴面偏移量要求低
主轴一端固定
介质最高要求低要求
磁头臂组结构更强
低惯性设计
轻量化结构
高惯性设计
音圈马达磁体更大
空气乱流控制
振动传感器和闭环振动补偿
磁体较小
没有空气乱流控制
没有振动传感器或者补偿 有限的伺服楔磁道对齐
电子设备双处理器 (专门的伺服和数据通道处理器)
性能优化
高级错误处理
高级固件算法
单处理器
无性能优化
标准错误处理
标准固件算法
性能
延迟和寻道时间5.7毫秒 @ 15,000 RPM13毫秒 @ 7,200 RPM或者更低
指令队列和记录完整受限
振动抗性最高 21 Rad/s^2最高 5 - 12 Rad/s^2
典型IOPs (无振动时)31977
典型IOPs (在20 Rad/s^2 的振动条件下)310<7
双工全双工半双工
特定化
固件全面有限
可变扇区尺寸SCSI 和 SAS 可用
LED指示灯
可靠性
MTBF45摄氏度环境温度 7x24运行 100%负荷条件下 1,200,000 小时25摄氏度环境温度 5x8运行 10% - 20%负荷条件下 700,000小时
内部数据完整性检查端到端有限 不包括缓存
最高运行温度60摄氏度40摄氏度
保修期限51至3年
*
注意:MTBF、运行温度和振动抗性在不同制造商会有所不同。

最后总结,不翻译了,没说什么具体的东西。大概意思是硬盘种类很多,要根据需求选择合适的。硬盘的企业级和消费级有时候区分也很模糊,注意不要掉坑里。Intel不推荐特定型号的硬盘,如果有需求就去联系硬盘制造商获得信息。后面是Intel的硬件兼容信息。

我来总结的话就是,企业级硬盘和消费级硬盘的区别不仅是摆在数字上的差异,比如读写性能、UBER、MTBF、保修期限这些。还有内部的一些机制,用来提供企业级的可靠性和可用性的,像振动补偿和可变扇区尺寸。而且硬盘也是一个整体,更好的部件也要有更全面稳健的固件加以支持。这些是在读数字的时候很容易被忽略掉的。

原文里一直在说企业级系统,这里的RAID卡、RAID级别和企业级硬盘等硬件和功能也是紧密关联的,各个组成部分的功能需要相应的软硬件配合才能发挥作用,就比如说SCT-ERC指令和端到端数据保护。如果需要有更高层的可靠性和数据完整性需求,那就不要在一味地节省成本。

最后还是我经常说的,认真考量自己的实际需求,最好的未必是自己最需要的。面向企业级环境的硬件未必很适合家用,比如电源管理和声学特性。反过来也一样。



补档备考

1. 增加了两张配图以方便不便下载原文pdf的人阅读。

2. 部分内容调整。高级格式(AF)的内容删除,有另外帖子说明。

3. 增加一个可变扇区的例子。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
qblee 发表于 2014-12-4 08:54 | 显示全部楼层
真的学习了,看了后明白了很多道理,原来我买了个西部数据的se企业级1t硬盘,只是看着128M缓存很厉害的样子才买的,没想到还有这么多的知识点。谢谢lz
nb930 发表于 2015-6-11 10:11 | 显示全部楼层
看完之后真受益良多!!现在我想加一个3T的硬盘,企业级SATA硬盘可值得一战?
threecai 发表于 2018-11-1 22:21 | 显示全部楼层
虽然是很老的文章了,但是还是让我受益非浅!
我从几年前开始,买硬盘就只买企业级硬盘了。虽然是企业的SATA硬盘,但是可靠性和数据出错率,至少从官方数据上看,还是要比消费级SATA硬盘高出一个数量级的
doymll 发表于 2018-11-2 09:26 | 显示全部楼层
我突然很后悔,买了好几块wd nas硬盘.而不是买东芝那个高转速的
DGX 发表于 2018-11-2 10:46 | 显示全部楼层
现在买硬盘
啥? 消费级还有硬盘?!
无论HDD SSD
哦 硬盘形态3DXpoint除外!目前为止,这货满门NB!
墙上的另一块砖 发表于 2021-12-13 13:02 | 显示全部楼层
专业!不得不挖坟
见谅
着迷留香 发表于 2021-12-20 12:02 | 显示全部楼层
挖坟,NAS要考虑企业级的了。
Eisan 发表于 2023-11-2 22:15 | 显示全部楼层
老帖子,但是值得一看。感谢楼主;
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部