这回没手欠。
今天例行巡检的时候发现slot0的盘多出7000多media error。
看了眼VD的状态都正常,于是继续看event log。
发现问题出在我上个月刷盘的FW以后,两周的时间刷了14000多条跟Consisty check、Corrected medium error以及Uncorrected medium error有关的条目,就像下面这样。
- seqNum: 0x00002db0
- Time: Sun Nov 24 17:27:30 2019
- Code: 0x00000071
- Class: 0
- Locale: 0x02
- Event Description: Unexpected sense: PD 10(e0x3e/s0) Path 5000c**********d, CDB: 88 00 00 00 00 00 51 cd a2 67 00 00 00 19 00 00, Sense: 3/11/00
- Event Data:
- ===========
- Device ID: 16
- Enclosure Index: 62
- Slot Number: 0
- CDB Length: 16
- CDB Data:
- 0088 0000 0000 0000 0000 0000 0051 00cd 00a2 0067 0000 0000 0000 0019 0000 0000 Sense Length: 40
- Sense Data:
- 0072 0003 0011 0000 0000 0000 0000 0020 0000 000a 0080 0000 0000 0000 0000 0000 0051 00cd 00a2 0067 0003 0002 0000 000a 0080 000e 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
- seqNum: 0x00002db1
- Time: Sun Nov 24 17:27:30 2019
- Code: 0x00000039
- Class: 0
- Locale: 0x01
- Event Description: Consistency Check corrected medium error (VD 00/0 at 51cda220, PD 10(e0x3e/s0) at 51cda220)
- Event Data:
- ===========
- VD LBA: 1372430880
- PD LBA: 1372430880
- Target Id: 0
- Device ID: 16
- Enclosure Index: 62
- Slot Number: 0
复制代码 我能想到的问题就是,之前刷盘的FW以后没重启,就继续用了。RAID1的另外一个盘就没事。
所以我认为就是可修复的逻辑错误。
接下来就是备份数据,PD offline,然后手动拔插一下,做一个drive initialize,最后rebuild。
插拔以后Media error就清零了,然后用了5个多小时的时间做擦除,紧跟着在Emergency spare机制的作用下,自动Rebuld,又花了3个多小时。
现在一切恢复正常。
总结一下经验教训。
1 刷FW code以后一定遵照最佳实践,该重启重启,该断电断电;
2 Medium error≠Media error≠坏道,三者不在一个维度上;
3 手里有备份,心里不慌。
|