本帖最后由 nighttob 于 2017-4-9 11:08 编辑
重点其实不是刀片……
上周从库房某角落拾掇出一个IBM x440刀片(长啥样可以放狗),2012年产的,看上去吃灰至少2年了。本着娱乐精神,打算试试能不能用。
检查了一下4个CPU 8根内存都插好,2个型号不一样的300G SAS硬盘,插刀箱里面通电,识别2分钟后没有报错,于是开机,配个RAID1开始装系统。
装win2k12r2过程中发现磁盘0是脱机状态,手动给联机以后提示只读状态,于是重启进BIOS查看阵列状态是后台初始化且无法中止,那么删掉阵列再新建一个,接着安装系统,一切正常。
装好系统以后发现任务管理器用来打地鼠还是不错的。
就这样放着没管,直到这周四,机房的空调坏了,需要关一部分设备的时候才发现刀箱ERROR报警,十多条全是这个刀片的CPU错误。远程上去看,系统意外重启了,在系统和BIOS里面也只能识别出2个CPU。难道过热把CPU搞挂了?当天事多,没来及排查,等第二天空调修好再看。
第二天空调修好了,把刀片拆开看,没发现明显异状,于是插回刀箱,没有报错。感觉有可能是微码太低的问题,于是全刷了一遍,也没出问题。
但没过多久刀箱又报警了,这回是1个硬盘warning,故障预警。在本机上不太容易处理,于是把硬盘拆出来,插到别的机器上检查一下。这里要吐槽下,IBM的硬盘托架是六角螺丝,紧固剂上的真不是一般的多。
用HD Sentinel一看,还真是没见过“死”的如此彻底的,红红的两个0%。
SMART详情显示这个盘已经饱经风霜了。
阵列卡没有JBOD模式,所以直接用Drive Erase功能擦一下看看,结果果然失败了。
这才想到,之前系统装不上可能就是硬盘已经有问题了,但是没发现。
单位的东西,就不折腾了,直接报损,反正有盘可以换。
折腾完这些,回看了日志,发现刀片出故障是在空调坏之前,所以只是碰巧赶上了。
首先是大量内存可纠正ECC错误,然后CPU#1就挂了-离线。1个CPU躺了,其他几个的互联就出问题了,系统硬重启,各种失效和性能降级。
第二天刷完微码以后系统自己发现硬盘故障预警。
虽然暂时没问题了,但确实有可能是CPU的事,只能时间验证了。
话说上周加刀片的时候还一并换了几个电源,结果有个电源插上刀箱就开始冒火星(刀箱是带电的),这样又得到了电源尸体一具。
左边是艾默生的尸体,右边是台达活着的,都是全12V输出2500W额定。有机会也许可以拆了看看。
那么问题来了,重点是什么?
|