PCEVA,PC绝对领域,探寻真正的电脑知识

标题: 奇葩的服务器内存测试死机蓝屏故障 [打印本页]

作者: xdd6622    时间: 2020-3-15 11:26
标题: 奇葩的服务器内存测试死机蓝屏故障
本帖最后由 xdd6622 于 2020-3-16 19:16 编辑

      收了一套老掉牙的双路1366超微服务器,机箱为SuperChassis 743TQ-865B,自带台达代工的银牌865W电源:PWS-865-PQ,主板是功能很全的X8DA3,CPU是X5650*2,先后收了3对DDR3 ECC REG内存:金士顿2G*2 1066 标压,金士顿4G*2 1333 低压1.35V,镁光4G*2 标压。东芝TR200 240固态做系统盘,加了个机械硬盘1T西数蓝盘存一些程序与资料。
[attach]430317[/attach]
[attach]430320[/attach]

[attach]430321[/attach]




      为了验证服务器和内存的稳定性,对内存烤机试验,只插一对镁光内存,用噹RunMemTest Pro v1.3测试,开了12个程序运行,结果没几分钟服务器咣的一下就重启了,我脑子一片空白,这问题很严重啊,心中涌出无数个疑问:主板问题?内存问题?硬盘问题?电源问题?兼容性问题?驱动问题?........
      排除电脑故障无非就是2个办法,1:系统最小化,2:部件或驱动替换法。
      本着先易后难得原则,先将重点放在内存上,换了一对金士顿4G*2 1333 低压条,跑了80%的时候没出问题,正在高兴的时候,直接蓝屏了:
[attach]430318[/attach]

[attach]430319[/attach]




       看代码像是内存有问题,再次换了一对金士顿2G*2 1066 标压跑测试,这次跑了300%没出问题:
[attach]430322[/attach]




       本以为找到原因了,可能是之前的2对4G内存都有问题。停掉内存测试,进系统操作,结果非常卡顿,难道是东芝固态TR200卡顿?停了一会儿再操作,还是不间断的卡顿,这看起来不像固态硬盘的卡顿现象,于是我的疑问集中在1T机械硬盘上,这个硬盘以前出现过坏道,被我分区屏蔽了坏道部分,一直使用没问题的,难道现在健康状态恶化了?       我决定拆下这个从盘再测试,于是我把蓝盘里的测试程序倒进固体硬盘,谁知拷贝速度极慢,才10K的速度,并且经常卡住不动,我想应该找到故障原因了,十有八九是这个机械硬盘造成的。为了验证这个想法,拆下从盘,再换上出现过蓝屏故障的金士顿4G*2 1333 低压条,开机重新运行噹RunMemTest Pro v1.3,开12个程序,跑过100%没出现问题,初步验证想法是对的。
      再加一对之前故障严重的镁光4G*2 标压条,现在变为4G*4=16G了,再次运行噹,开了12个程序,跑过300%没出现问题,没想到标压条和低压条混插也没出问题:
[attach]430323[/attach]





        问题找到了,内存测试死机蓝屏居然是这个1T机械硬盘造成的!!!
        看看这块机械硬盘的信息:
[attach]430334[/attach]










为了验证这个观点,又进行了其他的一系列测试,都很稳定,测试成绩也正常:
[attach]430324[/attach]
[attach]430326[/attach]

[attach]430327[/attach]





结论:一块故障机械硬盘引发的翻车事故,告诉我们,即使是从盘,也能让系统崩溃!


作者: alexli    时间: 2020-3-15 16:11
这么神奇的。
这个机器用来做什么用途的?机箱结构看起来很不错。风道很好。
作者: xdd6622    时间: 2020-3-15 16:52
alexli 发表于 2020-3-15 16:11
这么神奇的。
这个机器用来做什么用途的?机箱结构看起来很不错。风道很好。 ...

暂时当pc用,有空研究一下装黑苹果

作者: nighttob    时间: 2020-3-15 17:53
既然是正经服务器的板子,为啥不去看BMC的SEL LOG?
RDIMM都是可以纠正single-bit ECC error的,如果都被correct了,你跑mem test也看不出来,只有uncorrected的才报错蓝屏
作者: xdd6622    时间: 2020-3-15 18:03
nighttob 发表于 2020-3-15 17:53
既然是正经服务器的板子,为啥不去看BMC的SEL LOG?
RDIMM都是可以纠正single-bit ECC error的,如果都被co ...

谢谢指点,服务器没研究过,当PC机玩了

作者: pphiuyt    时间: 2020-3-15 19:23
本帖最后由 pphiuyt 于 2020-3-15 19:25 编辑

正常   我去年一个从盘ssd故障也是 直接卡死  但是不蓝屏    有些程序比如音乐  你打开硬盘0的数据, 硬盘1休眠也跟着转起来
作者: 547737657    时间: 2020-3-17 12:14
内存测试推荐HCI Memtest 7.0 Pro,楼主Run Memtest自带的HCI版本过于陈旧。有空可以换下
作者: xdd6622    时间: 2020-3-17 18:23
547737657 发表于 2020-3-17 12:14
内存测试推荐HCI Memtest 7.0 Pro,楼主Run Memtest自带的HCI版本过于陈旧。有空可以换下 ...

谢谢提醒,下了一个

作者: Katsumi    时间: 2020-12-8 09:19
弱弱的问一句,为何机械硬盘导致了问题的产生
作者: pphiuyt    时间: 2020-12-8 11:28
Katsumi 发表于 2020-12-8 09:19
弱弱的问一句,为何机械硬盘导致了问题的产生

应该是从盘导致问题

作者: redseabay    时间: 2020-12-8 15:09
windows 似乎确实如此, 有问题的硬盘可以拖死整个系统




欢迎光临 PCEVA,PC绝对领域,探寻真正的电脑知识 (https://bbs.pceva.com.cn/) Powered by Discuz! X3.2