PCEVA,PC绝对领域,探寻真正的电脑知识
打印 上一主题 下一主题
开启左侧

ESXi_6.5_U1 正常关机硬盘异常断电计数却增加!求分析… ...

[复制链接]
跳转到指定楼层
1#
GreatorK 发表于 2018-4-15 21:28 | 显示全部楼层 回帖奖励 |倒序浏览 |阅读模式
点击数:7140|回复数:37
本帖最后由 GreatorK 于 2018-4-16 11:34 编辑

大家好!前两天在论坛求推荐硬盘结果今天又来找大家帮忙了……真是一波未平一波又起……

就是今天刚换上新硬盘发现一个很奇怪的问题,搜了很多地方也没有资料,所以跟大家说下看看能不能帮忙分析下,先感谢各位了!

先说一下硬件环境哈:

主板:超微X11SAE-M  C236 芯片组
CPU: E3-1268L V5 4C8T 2.4GHz
内存:Kingston 8GB ECC x2
硬盘:1.Liteon T9 200G 论坛定制版
         2.三星 SM863 480G

问题:ESXi主机正常关机情况下,三星固态硬盘的SMART里异常断电计数(EB)会增加,关机一次加一,定制版没有计数所以暂时还不清楚,这好像是没有发送ATA指令就突然断电,但是Windows Server 2012 R2环境下问题不存在,所以排除硬件问题;VMware官方论坛有人说是ESXi不兼容这盘,但是查过VMware官方兼容性列表,这个型号的硬盘及固件在兼容之列,所以这是ESXi的BUG?有没有什么办法解决一下……
刚刚加了一块机械硬盘也是这样,关机一次异常断电一次,大家有的话也可以看一下自己的ESXi系统啊……感觉这个问题其实挺大的……
还有一个帖子(这里这里)也说过类似情况但是没有后文了,各位看看有木有遇到过啊……
更新:今天查了一下官方的兼容列表,这个三星SSD包括固件C236的HBA控制器都是官方兼容的,所以这是一个驱动或者ESXi BUG?各位要不要看下自己的6.5u1主机……








本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
GreatorK  楼主| 发表于 2018-4-15 23:52 | 显示全部楼层
Tech 发表于 2018-4-15 23:38
这个又不影响,应该是esxi问题

对于SM863,看过三星的说明,这个计数加一意味着下次启动硬盘主控需要对数据表啥的进行一次恢复,这个还是有点担心数据的;另外这个在机械盘上来讲应该就是像突然断电那种机械结构的伤害吧,虽然不知道现在的技术来讲这种伤害可不可以忽略不计……
3#
GreatorK  楼主| 发表于 2018-4-16 09:46 | 显示全部楼层
nighttob 发表于 2018-4-15 23:55
你自己都意识到了是没有发送命令所以出的问题
当然得去找磁盘控制器的问题

硬盘是直接插到主板SATA接口的,所以控制器是主板芯片组的呀,我没有加阵列卡,学生党住寝室,所以每天晚上都得关机,学校限电……
4#
GreatorK  楼主| 发表于 2018-4-16 09:47 | 显示全部楼层
eterfinity 发表于 2018-4-16 09:41
这个要看你硬盘接在哪个控制器上,如果是使用的第三方depot提供的sata-xahci驱动的控制器,那么就会这样。
...

C236主板自带的控制器会有这种问题吗?还是我BIOS里边有需要调整的?
5#
GreatorK  楼主| 发表于 2018-4-16 10:47 | 显示全部楼层
eterfinity 发表于 2018-4-16 09:41
这个要看你硬盘接在哪个控制器上,如果是使用的第三方depot提供的sata-xahci驱动的控制器,那么就会这样。
...

刚刚查过VMware兼容列表,这个控制器在兼容之列而且加载的驱动也是对的,驱动BUG?
6#
GreatorK  楼主| 发表于 2018-4-16 13:45 | 显示全部楼层
DoctorX99 发表于 2018-4-16 13:25
有没有尝试6.0版本的ESXI?之前Gen10有在用ESXI,没注意这个问题,现在用ClearOS,没法帮忙看了
...

VMware官方兼容列表里,C236的HBA控制器是不兼容6.0的,只兼容6.5和6.5U1……不过还是感谢!
7#
GreatorK  楼主| 发表于 2018-4-16 17:18 | 显示全部楼层
XXHJACK 发表于 2018-4-16 15:28
不用分析了要么你升级到高版本的6.5要么降级到高版本的6.0!因为6.5不稳定。我们上虚拟化环境的时候差点被6 ...

我用的就是6.5_Update1啊,难道还有更新的?
8#
GreatorK  楼主| 发表于 2018-4-16 17:27 | 显示全部楼层
eterfinity 发表于 2018-4-16 16:36
100/200/c230系列芯片组的sata ahci控制器实际是驱动有问题,有一个偏方可以解决,就是让硬盘从pcie插槽取 ...

那有没有渠道去反馈这个BUG,或者是不是可以直接买一个兼容6.5的阵列卡解决问题?
9#
GreatorK  楼主| 发表于 2018-4-16 18:01 | 显示全部楼层
eterfinity 发表于 2018-4-16 17:37
参照vsan ready node里面使用板载c236 sata ahci控制器 的型号去注意它的主板电源就好了,或者随便搞个lsi ...

暂时不想再购置新硬件了……所以VSAN READY NODE是指它的文档吗?再者,这个驱动更新应该能解决问题的吧,是以新版本ESXi的形式发布还是会有单独的VIB包提供下载啊?虚拟化新人,感谢前辈赐教!
10#
GreatorK  楼主| 发表于 2018-4-16 18:57 | 显示全部楼层
本帖最后由 GreatorK 于 2018-4-16 19:11 编辑

今天刚刚看到主板的兼容性列表里是兼容 ESXi_6.0_U1b 的,回去试下降到6.0看看,或者我能在6.5上跑6.0的HBA驱动吗@eterfinity ……
11#
GreatorK  楼主| 发表于 2018-4-16 23:52 | 显示全部楼层
eterfinity 发表于 2018-4-16 22:21
用6.0的话,如果你的sata控制器硬件id是一下几个之一:
8086:8c82, 8086:8c83, 8086:9c02,8086:9c83, 8 ...

用的是6.5U1,硬件ID是8086:a102,电源是益衡ENP-7025F的服务器TFX电源;我按这个帖子禁用了vmw_ahci驱动,它自动启用了SATA_AHCI驱动但是不管用还是会增加,可以确定的是硬件都是服务器级别的。6.5现在只能用WEB CLIENT,功能很不全,找不见设置为远程,用SSH的话不知道命令……
12#
GreatorK  楼主| 发表于 2018-4-17 18:00 | 显示全部楼层
eterfinity 发表于 2018-4-17 05:04
装个vcenter ,就有标为远程这个按钮了。此外,命令也好查的,我记得好像和强制设置为ssd是一条命令,只不 ...

试了好多个版本,从6.0U1B到6.5U1都试过都没有解决再加上这段时间实在没精力再折腾这些了,所以打算上 WIN SERVER 2016 , 好在虚拟机可以转换到Hyper-V, 谢谢大佬指教!
13#
GreatorK  楼主| 发表于 2018-4-18 23:40 | 显示全部楼层
屋漏偏逢连夜雨,Win Server 2016 经常无法引导启动……
14#
GreatorK  楼主| 发表于 2018-4-19 09:30 | 显示全部楼层
本帖最后由 GreatorK 于 2018-4-19 09:32 编辑
XXHJACK 发表于 2018-4-19 00:00
你是不是硬件有问题

正在试着更换OS安装硬盘,可以确定的是主板BIOS是最新的而且更新后放电过,有问题也该是在硬盘上……
15#
GreatorK  楼主| 发表于 2018-4-19 13:17 | 显示全部楼层
eterfinity 发表于 2018-4-17 05:04
装个vcenter ,就有标为远程这个按钮了。此外,命令也好查的,我记得好像和强制设置为ssd是一条命令,只不 ...

今天测试了昨天刚刚发布的 ESXi_6.7 ,问题依旧,这样看来从6.0一直到6.7我这个都有问题……我在官方社区发了 BUG REPORT 不知道会不会有用,暂时先放弃 ESXi 了,另外论坛定制版 200G 在我的主板上装 Win_Server_2016 经常无法引导,换上SM863就可以了,看来这一套还真是有点挑硬件啊……
16#
GreatorK  楼主| 发表于 2018-4-19 15:43 | 显示全部楼层
本帖最后由 GreatorK 于 2018-4-19 18:52 编辑
eterfinity 发表于 2018-4-19 14:21
我大概知道你的问题是啥了,建议你用u盘装esxi,安装盘引导后可直接选优盘,然后系统里设置把syslog和scra ...

大佬,首先这个供电是指BIOS层面还是直接硬件比如TFX电源或者主板啊,我倒是更新了最新的BIOS;另外这个模块是指的ESXi某个功能模块?还是主板某个芯片的某个硬件电路部分……说到直通,我装这么多版本ESXi其实这个8086:a102的控制器一直是灰色的也就是不支持直通的...另外Windows 的一众系统除了经常不能正常引导200G定制版以外,正常开关机的话SMART是没变化的,是不是可以排除硬件故障……
   
然后刚刚我把ESXi装进U盘改了SYSLOG的DIR,SCRATCH改不了他是在/tmp/scratch下,以及关闭了VT-D,关机的话那个值依旧增加……我以前的SM863也不是引导盘的只做存储,系统和引导盘是定制200G;我试了把它改成远程,但是命令行能查到的都是naa开头的硬盘标识,而我的是t10开头,图里我用的一块测试HDD哈,套用网上命令也都是执行出错……也在刚刚试了这块硬盘接硬盘盒,确实不增加了因为硬盘盒供电直接没有切断,关机了硬盘还是在转的,也就是如果不是外接供电它也会停转也会增加……同时接到USB的话ESXi也识别不出它的数据存储了。
  
不过说是供电问题也有道理,如果关机时候断电早导致OS没有及时传送命令也会导致计数加一,Windows和ESXi发送命令时机不一样的话两者可能就区别开来,这样T9 200G不能正常引导也就可以理解了,毕竟下次开机得先恢复数据,可是重启应该是不断电的呀,T9也会无法引导就很难理解了……而且刚刚SM863也出现了一次无法引导的情况……RESET开机以后Windows日志里提示“系统已在未先正常关机的情况下重新启动。如果系统停止响应、发生崩溃或意外断电,则可能会导致此错误。”……
      
然后主板上有关电源管理的页面也都在这里了,大佬看看那里有问题……
这是我第一次排错搞这么长时间,真的憋屈……







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
17#
GreatorK  楼主| 发表于 2018-4-19 21:45 | 显示全部楼层
eterfinity 发表于 2018-4-19 21:41
disable_local 是你自己发明的吧

他下边这个enable_ssd也不能执行啊……重点是是不是硬件有问题啊……
18#
GreatorK  楼主| 发表于 2018-4-19 22:04 | 显示全部楼层
eterfinity 发表于 2018-4-19 21:56
你的ESXi装进u盘 关闭vt-d之后   不要把T9接上去  把别的盘接T9的位置 看增加不

然后是电源问题  实际上 ...

别的盘接T9位置也会增加,网卡一个是210AT,一个是219LM,其中219LM用来做 Intel AMT 远程控制,改电源管理没有用的话也就是硬件设计问题?这个就很绝望了……关键是现在用 Windows Server 也有时候无法启动,两个SSD都有过,真的开始怀疑这个供电是不是真有问题……虽然都是全新的硬件……
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部