PCEVA,PC绝对领域,探寻真正的电脑知识
开启左侧

奇葩的服务器内存测试死机蓝屏故障

[复制链接]
xdd6622 发表于 2020-3-15 11:26 | 显示全部楼层 |阅读模式
点击数:2911|回复数:10
本帖最后由 xdd6622 于 2020-3-16 19:16 编辑

      收了一套老掉牙的双路1366超微服务器,机箱为SuperChassis 743TQ-865B,自带台达代工的银牌865W电源:PWS-865-PQ,主板是功能很全的X8DA3,CPU是X5650*2,先后收了3对DDR3 ECC REG内存:金士顿2G*2 1066 标压,金士顿4G*2 1333 低压1.35V,镁光4G*2 标压。东芝TR200 240固态做系统盘,加了个机械硬盘1T西数蓝盘存一些程序与资料。
      为了验证服务器和内存的稳定性,对内存烤机试验,只插一对镁光内存,用噹RunMemTest Pro v1.3测试,开了12个程序运行,结果没几分钟服务器咣的一下就重启了,我脑子一片空白,这问题很严重啊,心中涌出无数个疑问:主板问题?内存问题?硬盘问题?电源问题?兼容性问题?驱动问题?........
      排除电脑故障无非就是2个办法,1:系统最小化,2:部件或驱动替换法。
      本着先易后难得原则,先将重点放在内存上,换了一对金士顿4G*2 1333 低压条,跑了80%的时候没出问题,正在高兴的时候,直接蓝屏了:       看代码像是内存有问题,再次换了一对金士顿2G*2 1066 标压跑测试,这次跑了300%没出问题:

       本以为找到原因了,可能是之前的2对4G内存都有问题。停掉内存测试,进系统操作,结果非常卡顿,难道是东芝固态TR200卡顿?停了一会儿再操作,还是不间断的卡顿,这看起来不像固态硬盘的卡顿现象,于是我的疑问集中在1T机械硬盘上,这个硬盘以前出现过坏道,被我分区屏蔽了坏道部分,一直使用没问题的,难道现在健康状态恶化了?       我决定拆下这个从盘再测试,于是我把蓝盘里的测试程序倒进固体硬盘,谁知拷贝速度极慢,才10K的速度,并且经常卡住不动,我想应该找到故障原因了,十有八九是这个机械硬盘造成的。为了验证这个想法,拆下从盘,再换上出现过蓝屏故障的金士顿4G*2 1333 低压条,开机重新运行噹RunMemTest Pro v1.3,开12个程序,跑过100%没出现问题,初步验证想法是对的。
      再加一对之前故障严重的镁光4G*2 标压条,现在变为4G*4=16G了,再次运行噹,开了12个程序,跑过300%没出现问题,没想到标压条和低压条混插也没出问题:


        问题找到了,内存测试死机蓝屏居然是这个1T机械硬盘造成的!!!
        看看这块机械硬盘的信息:为了验证这个观点,又进行了其他的一系列测试,都很稳定,测试成绩也正常:

结论:一块故障机械硬盘引发的翻车事故,告诉我们,即使是从盘,也能让系统崩溃!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
alexli 发表于 2020-3-15 16:11 | 显示全部楼层
这么神奇的。
这个机器用来做什么用途的?机箱结构看起来很不错。风道很好。
xdd6622  楼主| 发表于 2020-3-15 16:52 | 显示全部楼层
alexli 发表于 2020-3-15 16:11
这么神奇的。
这个机器用来做什么用途的?机箱结构看起来很不错。风道很好。 ...

暂时当pc用,有空研究一下装黑苹果
nighttob 发表于 2020-3-15 17:53 | 显示全部楼层
既然是正经服务器的板子,为啥不去看BMC的SEL LOG?
RDIMM都是可以纠正single-bit ECC error的,如果都被correct了,你跑mem test也看不出来,只有uncorrected的才报错蓝屏
xdd6622  楼主| 发表于 2020-3-15 18:03 | 显示全部楼层
nighttob 发表于 2020-3-15 17:53
既然是正经服务器的板子,为啥不去看BMC的SEL LOG?
RDIMM都是可以纠正single-bit ECC error的,如果都被co ...

谢谢指点,服务器没研究过,当PC机玩了
pphiuyt 发表于 2020-3-15 19:23 | 显示全部楼层
本帖最后由 pphiuyt 于 2020-3-15 19:25 编辑

正常   我去年一个从盘ssd故障也是 直接卡死  但是不蓝屏    有些程序比如音乐  你打开硬盘0的数据, 硬盘1休眠也跟着转起来
547737657 发表于 2020-3-17 12:14 | 显示全部楼层
内存测试推荐HCI Memtest 7.0 Pro,楼主Run Memtest自带的HCI版本过于陈旧。有空可以换下
xdd6622  楼主| 发表于 2020-3-17 18:23 | 显示全部楼层
547737657 发表于 2020-3-17 12:14
内存测试推荐HCI Memtest 7.0 Pro,楼主Run Memtest自带的HCI版本过于陈旧。有空可以换下 ...

谢谢提醒,下了一个
Katsumi 发表于 2020-12-8 09:19 | 显示全部楼层
弱弱的问一句,为何机械硬盘导致了问题的产生
pphiuyt 发表于 2020-12-8 11:28 | 显示全部楼层
Katsumi 发表于 2020-12-8 09:19
弱弱的问一句,为何机械硬盘导致了问题的产生

应该是从盘导致问题
redseabay 发表于 2020-12-8 15:09 | 显示全部楼层
windows 似乎确实如此, 有问题的硬盘可以拖死整个系统
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部