YES! LSI part2

nighttob · 发表于 2019-12-8 20:54

这回没手欠。
今天例行巡检的时候发现slot0的盘多出7000多media error。

看了眼VD的状态都正常，于是继续看event log。
发现问题出在我上个月刷盘的FW以后，两周的时间刷了14000多条跟Consisty check、Corrected medium error以及Uncorrected medium error有关的条目，就像下面这样。

seqNum: 0x00002db0
Time: Sun Nov 24 17:27:30 2019
Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 10(e0x3e/s0) Path 5000c**********d, CDB: 88 00 00 00 00 00 51 cd a2 67 00 00 00 19 00 00, Sense: 3/11/00
Event Data:
===========
Device ID: 16
Enclosure Index: 62
Slot Number: 0
CDB Length: 16
CDB Data:
0088 0000 0000 0000 0000 0000 0051 00cd 00a2 0067 0000 0000 0000 0019 0000 0000 Sense Length: 40
Sense Data:
0072 0003 0011 0000 0000 0000 0000 0020 0000 000a 0080 0000 0000 0000 0000 0000 0051 00cd 00a2 0067 0003 0002 0000 000a 0080 000e 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
seqNum: 0x00002db1
Time: Sun Nov 24 17:27:30 2019
Code: 0x00000039
Class: 0
Locale: 0x01
Event Description: Consistency Check corrected medium error (VD 00/0 at 51cda220, PD 10(e0x3e/s0) at 51cda220)
Event Data:
===========
VD LBA: 1372430880
PD LBA: 1372430880
Target Id: 0
Device ID: 16
Enclosure Index: 62
Slot Number: 0

复制代码

我能想到的问题就是，之前刷盘的FW以后没重启，就继续用了。RAID1的另外一个盘就没事。
所以我认为就是可修复的逻辑错误。

接下来就是备份数据，PD offline，然后手动拔插一下，做一个drive initialize，最后rebuild。
插拔以后Media error就清零了，然后用了5个多小时的时间做擦除，紧跟着在Emergency spare机制的作用下，自动Rebuld，又花了3个多小时。
现在一切恢复正常。

总结一下经验教训。
1 刷FW code以后一定遵照最佳实践，该重启重启，该断电断电；
2 Medium error≠Media error≠坏道，三者不在一个维度上；
3 手里有备份，心里不慌。

eterfinity · 发表于 2019-12-13 15:52

本帖最后由 eterfinity 于 2019-12-13 15:56 编辑

昨天正好做了个自己力所能及的数据恢复
3盘的raid5 lsi 9240-8i 的某品牌马甲卡    第一块fail  第二块 online  第三块 foreign  ，调整槽位变成23都foreign仍然导不进去

拿到手后直接dos下刷固件变成HBA卡

先试  123 组左同步raid5    分区能出来  数据全部孤立证明不能带上1组r5
于是组 X23的缺失第一块的左同步raid5

有效扇区模式克隆分区  搞定

300G的盘，全程30小时，LSI卡的蜂鸣器滴滴叫直接忽略

滴滴叫其实也就是遇到 CRC过不去的区块  强行读多少还能出来点儿

nighttob · 发表于 2019-12-13 21:13

eterfinity 发表于 2019-12-13 15:52
昨天正好做了个自己力所能及的数据恢复
3盘的raid5 lsi 9240-8i 的某品牌马甲卡第一块fail 第二块 ...

你没先看眼log哪个先掉哪个后掉的？

按照数据恢复那边的说法，遇事不决先各自单盘克隆一个镜像出来，然后再随便搞

eterfinity · 发表于 2019-12-17 22:45

nighttob 发表于 2019-12-13 21:13
你没先看眼log哪个先掉哪个后掉的？

按照数据恢复那边的说法，遇事不决先各自单盘克隆一个镜像出来，然 ...

看过的但本身3盘里2盘有物理问题
只能直接组了硬抽数据

YES! LSI part2

本帖子中包含更多资源