PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

一个放弃治疗的案例

[复制链接]
跳转到指定楼层
1#
nighttob 发表于 2016-2-27 10:07 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
点击数:6903|回复数:20
因为上次那件事的提醒,所以开始了每2年一次的HDD深度巡检

在进行到第7块盘之前,突然HDS报告发现异常

05h 重映射扇区数突然从0暴增至4000+

正好也轮到这块盘了,然后拔线,接着用HDS给重新初始化。这时候已经有预期,这个问题是不可修复的,很可能是磁盘性状的问题。

34个小时后,程序卡在了#6796这个位置上。在前面还发现了坏块和其他问题,此时该盘已掉盘,故警告称“指定的网络资源或设备不再可用”。

仔细观察扫描图,前部有有规律的深色块,这就可以说明这块盘确实发生了性状变化。也就是说即使能确定已出现坏道的位置,也不能用屏蔽法再将就着用,因为是磁盘表面或者磁头发生了异常。

日志显示05h又有增长,而且C5h和C6h也开始同步大幅增长了。

因为无法继续重新初始化操作,所以分别进行读写测试,目的在于找出所有问题,虽然此时已经可以给这盘判死了。

读取测试的耗时在正常范围内,发现3个坏道区域,跟之前做重新初始化时一致。过程中也出现了有规律的掉速,只不过在图上未能表现出。

写测试的情况就很明显了,到了#6795的位置时再次掉盘,这次“由于I/O设备错误,无法运行此项请求”的意思是严重指令超时,相当于设备拒绝了主机指令,在MSM(MegaRAID Stotage Manager)上面看就是已经掉盘了。

此时所有磁盘管理工具都因这盘的缘故,响应极慢。所以不再进行测试,断电拔盘了。

这是用HDS“查看离线磁盘状态”功能回溯出的日志,最近的日志条目还是先前做读取测试时留下的。

把故障盘接到日用主机上面,能感觉到盘还是在运转,但依然所有磁盘工具都会严重滞后,此时05h已经超过5000,C5h和C6h更是突破了15000。

结论是可以放弃治疗了。

后记

这是自阵列完整运行以来发生的第一起磁盘损坏,无故障时间超过3年(手欠的不算),远超消费级磁盘标准(消费级的通电时间参考值是2400小时/年,而这快盘已经通电25000小时了)。这起事故对阵列没有任何影响,本来就是在巡检过程中发现的,所以马上就有盘顶了上去。只是阵列里所有盘都跟这个一样,已经至少服役3年了,随时都有可能发生类似甚至更严重的情况,所以制订升级方案已经是必须了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
yhhekeda 发表于 2016-2-27 10:27 | 只看该作者
问下大神具体是做什么工作的,好多盘呀,硬盘哨兵这个工具用得炉火纯青
3#
fastslz 发表于 2016-2-27 10:53 | 只看该作者
这盘不纠结早放弃治疗早轻松
现在大容量盘磁头和盘面间隙小 存储密度又大,一旦出现不可逆的物理坏道,C5h、C6h就泛滥了
4#
fastslz 发表于 2016-2-27 11:06 | 只看该作者
关注一下盘霸下一步升级计划用啥盘
5#
hyabcd0123 发表于 2016-2-27 14:05 | 只看该作者
本帖最后由 hyabcd0123 于 2016-2-27 14:42 编辑

HDS很不错,华为售前工程师跟我说过,华为存储投标的时候,不怕EMC戴尔惠普IBM,就怕HDS,人家产品做的好,企业本身又是造硬盘的,价格也很有优势。
想问下HDS用的raid是传统的raid1.0的技术还是raid2.0的

没有注意,这里的hds是软件,不是日立存储
6#
nighttob  楼主| 发表于 2016-2-27 14:21 | 只看该作者
hyabcd0123 发表于 2016-2-27 14:05
HDS很不错,华为售前工程师跟我说过,华为存储投标的时候,不怕EMC戴尔惠普IBM,就怕HDS,人家产品做的好, ...

此HDS不是日立

评分

参与人数 1绝对值 +1 收起 理由
hyabcd0123 + 1 Hitachi Data Systems?不是这个吗?.

查看全部评分

7#
小钻风 发表于 2016-2-27 14:32 | 只看该作者
看到有规律基本就心理一紧,不管是磁头问题还是区域面问题都是不可修复的。
销毁数据丢炼钢炉成本太高还是直播砸盘吧
8#
overthink 发表于 2016-2-27 15:57 | 只看该作者
我那个阵列最早的盘也1.7W小时多了。 也需要抽空检测一下了
9#
Mufasa 发表于 2016-2-28 01:19 | 只看该作者
你这个不叫放弃治疗。。。。是积极治疗。

像我这种无视硬盘状态,采取粗暴的异地镜像备份,才是放弃治疗。
哪天报警了,修就是,不报警就继续用。
突然死亡了,有异地备份,拷过来完事。
10#
无心飘落 发表于 2016-2-28 02:41 | 只看该作者
逢跳必死,半年前我连挂2盘表示深切问候。。。
11#
democat 发表于 2016-2-28 12:01 | 只看该作者
个人觉得 这台机器上所有的硬盘应该退役了
12#
大号跳蚤 发表于 2016-2-28 14:21 | 只看该作者
同样关注楼主升级计划
13#
红色狂想 发表于 2016-2-28 19:08 | 只看该作者
盘霸阵列中的盘都是7×24×365h不停运行吗?关注你的升级方案
14#
nighttob  楼主| 发表于 2016-2-28 19:25 | 只看该作者
piplpoly 发表于 2016-2-27 16:36
最好的温度控制,不要BT EMULE 硬盘会很常寿,正常的读写,
至于这块盘,由于你用的第3方软件,如果用希捷的官 ...

不是我不乐意用seatools,是这东西根本解决不了这问题


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
15#
jerrytsao 发表于 2016-2-28 20:01 | 只看该作者
本帖最后由 jerrytsao 于 2016-2-28 20:03 编辑

可以考虑慢慢更新ST8000VN0002, 我的11块4T已经启动换代计划, 第一块过几天能收到.
16#
Y6-0785 发表于 2016-2-29 00:05 | 只看该作者
piplpoly 发表于 2016-2-28 19:52
用DOS版本的,而且不是WINDOWS版本的,
我也忘说了,
前几天一块2T希捷有绿块,WINDOWS也不管用,

我有块12代500G,100多个橙块,DiskGenius、MHDD、Seatools DOS 擦除均无效,弃疗了。
17#
hgy9 发表于 2016-2-29 12:08 | 只看该作者
2015年报销了1个1T的移动硬盘,加电时间并不长,平时就复制照片备用神马的。
一次复制文件长时间没响应,直觉是认为有坏道了,但重新插拔后再也认不到盘,而且检测移动硬盘时卡得主机都没反映,说明机械硬盘也是会猝死的。。。
18#
nighttob  楼主| 发表于 2016-2-29 14:04 | 只看该作者
我要再好好折腾一下这块盘,如果还活着,那就活着了
如果死了,那就死了算了

19#
sunhaine 发表于 2016-2-29 16:51 | 只看该作者
Mufasa 发表于 2016-2-28 01:19
你这个不叫放弃治疗。。。。是积极治疗。

像我这种无视硬盘状态,采取粗暴的异地镜像备份,才是放弃治疗。 ...

请教狮大如何实现异地备份?
20#
nighttob  楼主| 发表于 2016-3-1 19:13 | 只看该作者
piplpoly 发表于 2016-2-29 08:33
那就奇怪了,我那500G 是X 坏道,进入系统要蓝屏的,擦完了没有了
而且棕块也没有了, 应该是当初震动产生的坏 ...

今天用DOS版seatools做full erase,走了6个小时,最后还是fail
这东西最不爽的就是除了给你故障代码以外,根本不告诉你怎么fail的,fail在哪儿的
当然官方工具都是这德行

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部