PCEVA,PC绝对领域,探寻真正的电脑知识
12
返回列表 发新帖
开启左侧

ESXi_6.5_U1 正常关机硬盘异常断电计数却增加!求分析… ...

[复制链接]
GreatorK  楼主| 发表于 2018-4-16 23:52 | 显示全部楼层
eterfinity 发表于 2018-4-16 22:21
用6.0的话,如果你的sata控制器硬件id是一下几个之一:
8086:8c82, 8086:8c83, 8086:9c02,8086:9c83, 8 ...

用的是6.5U1,硬件ID是8086:a102,电源是益衡ENP-7025F的服务器TFX电源;我按这个帖子禁用了vmw_ahci驱动,它自动启用了SATA_AHCI驱动但是不管用还是会增加,可以确定的是硬件都是服务器级别的。6.5现在只能用WEB CLIENT,功能很不全,找不见设置为远程,用SSH的话不知道命令……
eterfinity 发表于 2018-4-17 05:04 | 显示全部楼层
本帖最后由 eterfinity 于 2018-4-17 05:15 编辑
GreatorK 发表于 2018-4-16 23:52
用的是6.5U1,硬件ID是8086:a102,电源是益衡ENP-7025F的服务器TFX电源;我按这个帖子禁用了vmw_ahci驱动 ...

装个vcenter ,就有标为远程这个按钮了。此外,命令也好查的,我记得好像和强制设置为ssd是一条命令,只不过参数不是enable_ssd然后重点来了,8086.a102,是vmware的黑名单设备,具体为啥我不知道,你关闭主板vt-d或者启动参数加上noIOMMU试试。不改直通map文件的话,这个控制器和vtd有冲突。或者你改一下map,[size=43.5556px]Intel Corporation Sunrise Point-H AHCI ControllerThis needed addition of this line in /etc/vmware/passthrough.map
# INTEL Sunrise Point-H AHCI Controller
8086  a102  d3d0     false



GreatorK  楼主| 发表于 2018-4-17 18:00 | 显示全部楼层
eterfinity 发表于 2018-4-17 05:04
装个vcenter ,就有标为远程这个按钮了。此外,命令也好查的,我记得好像和强制设置为ssd是一条命令,只不 ...

试了好多个版本,从6.0U1B到6.5U1都试过都没有解决再加上这段时间实在没精力再折腾这些了,所以打算上 WIN SERVER 2016 , 好在虚拟机可以转换到Hyper-V, 谢谢大佬指教!
XXHJACK 发表于 2018-4-18 22:01 | 显示全部楼层
GreatorK 发表于 2018-4-17 18:00
试了好多个版本,从6.0U1B到6.5U1都试过都没有解决再加上这段时间实在没精力再折腾这些了,所以打算上 WI ...

6.0有u3解决了不少bug
GreatorK  楼主| 发表于 2018-4-18 23:40 | 显示全部楼层
屋漏偏逢连夜雨,Win Server 2016 经常无法引导启动……
XXHJACK 发表于 2018-4-19 00:00 | 显示全部楼层
GreatorK 发表于 2018-4-18 23:40
屋漏偏逢连夜雨,Win Server 2016 经常无法引导启动……

你是不是硬件有问题
GreatorK  楼主| 发表于 2018-4-19 09:30 | 显示全部楼层
本帖最后由 GreatorK 于 2018-4-19 09:32 编辑
XXHJACK 发表于 2018-4-19 00:00
你是不是硬件有问题

正在试着更换OS安装硬盘,可以确定的是主板BIOS是最新的而且更新后放电过,有问题也该是在硬盘上……
GreatorK  楼主| 发表于 2018-4-19 13:17 | 显示全部楼层
eterfinity 发表于 2018-4-17 05:04
装个vcenter ,就有标为远程这个按钮了。此外,命令也好查的,我记得好像和强制设置为ssd是一条命令,只不 ...

今天测试了昨天刚刚发布的 ESXi_6.7 ,问题依旧,这样看来从6.0一直到6.7我这个都有问题……我在官方社区发了 BUG REPORT 不知道会不会有用,暂时先放弃 ESXi 了,另外论坛定制版 200G 在我的主板上装 Win_Server_2016 经常无法引导,换上SM863就可以了,看来这一套还真是有点挑硬件啊……
eterfinity 发表于 2018-4-19 14:21 | 显示全部楼层
本帖最后由 eterfinity 于 2018-4-19 14:47 编辑
GreatorK 发表于 2018-4-19 13:17
今天测试了昨天刚刚发布的 ESXi_6.7 ,问题依旧,这样看来从6.0一直到6.7我这个都有问题……我在官方社区 ...

我大概知道你的问题是啥了,建议你用u盘装esxi,安装盘引导后可直接选优盘,然后系统里设置把syslog和scratchlog放硬盘里。这样弄过后,再试试吧。我前面的回复你大概没理解,说白了就是供电问题。不信的话,你拿移动硬盘盒装200g固态盘再开机试试

这里不能用常识来判断.
供电\驱动\VT-D这三个东西怎么联系起来的呢?  
开关机的时候如果某个模块因为供电的原因, 导致当系统里开启ioMMU(vt-D)的时候无法正常发送关机信号给sata,那么就会是这样子的结果.
如果不开ioMMU,系统少加载一个模块,可能也就不出现这个故障了,
如果你把本地盘标为远程了,那么也会改变关机时的行为,所以也是有可能避免这个问题的,
但到底怎么样,要以实际情况为准.
或者使引导盘不放在出问题的链路上,比如放到usb上去,可能也就避免了.

知道为嘛esxi不支持intel ich内置的raid么,, 就是因为内置的sata raid实际上不带有lun mask功能,系统里实际上还是能看到raid成员的单个物理磁盘的,intel的驱动上又没有专门去分开物理盘与raid volume,导致esxi无法正确做关机时的断电顺序,所以干脆不支持.
即便是linux,  也要带参数屏蔽sata设备才行.



GreatorK  楼主| 发表于 2018-4-19 15:43 | 显示全部楼层
本帖最后由 GreatorK 于 2018-4-19 18:52 编辑
eterfinity 发表于 2018-4-19 14:21
我大概知道你的问题是啥了,建议你用u盘装esxi,安装盘引导后可直接选优盘,然后系统里设置把syslog和scra ...

大佬,首先这个供电是指BIOS层面还是直接硬件比如TFX电源或者主板啊,我倒是更新了最新的BIOS;另外这个模块是指的ESXi某个功能模块?还是主板某个芯片的某个硬件电路部分……说到直通,我装这么多版本ESXi其实这个8086:a102的控制器一直是灰色的也就是不支持直通的...另外Windows 的一众系统除了经常不能正常引导200G定制版以外,正常开关机的话SMART是没变化的,是不是可以排除硬件故障……
   
然后刚刚我把ESXi装进U盘改了SYSLOG的DIR,SCRATCH改不了他是在/tmp/scratch下,以及关闭了VT-D,关机的话那个值依旧增加……我以前的SM863也不是引导盘的只做存储,系统和引导盘是定制200G;我试了把它改成远程,但是命令行能查到的都是naa开头的硬盘标识,而我的是t10开头,图里我用的一块测试HDD哈,套用网上命令也都是执行出错……也在刚刚试了这块硬盘接硬盘盒,确实不增加了因为硬盘盒供电直接没有切断,关机了硬盘还是在转的,也就是如果不是外接供电它也会停转也会增加……同时接到USB的话ESXi也识别不出它的数据存储了。
  
不过说是供电问题也有道理,如果关机时候断电早导致OS没有及时传送命令也会导致计数加一,Windows和ESXi发送命令时机不一样的话两者可能就区别开来,这样T9 200G不能正常引导也就可以理解了,毕竟下次开机得先恢复数据,可是重启应该是不断电的呀,T9也会无法引导就很难理解了……而且刚刚SM863也出现了一次无法引导的情况……RESET开机以后Windows日志里提示“系统已在未先正常关机的情况下重新启动。如果系统停止响应、发生崩溃或意外断电,则可能会导致此错误。”……
      
然后主板上有关电源管理的页面也都在这里了,大佬看看那里有问题……
这是我第一次排错搞这么长时间,真的憋屈……







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
eterfinity 发表于 2018-4-19 21:41 | 显示全部楼层
本帖最后由 eterfinity 于 2018-4-19 21:48 编辑
GreatorK 发表于 2018-4-19 15:43
大佬,首先这个供电是指BIOS层面还是直接硬件比如TFX电源或者主板啊,我倒是更新了最新的BIOS;另外这个模 ...

disable_local 是你自己发明的吧  老老实实装个VCSA, 然后在vsphere web client里面标为远程。

GreatorK  楼主| 发表于 2018-4-19 21:45 | 显示全部楼层
eterfinity 发表于 2018-4-19 21:41
disable_local 是你自己发明的吧

他下边这个enable_ssd也不能执行啊……重点是是不是硬件有问题啊……
eterfinity 发表于 2018-4-19 21:51 | 显示全部楼层
本帖最后由 eterfinity 于 2018-4-19 21:59 编辑
GreatorK 发表于 2018-4-19 21:45
他下边这个enable_ssd也不能执行啊……重点是是不是硬件有问题啊…… ...

esxcli storage nmp satp rule add -s VMW_SATP_XXXXXX --device naa.%%%%%%%%%%%%%%% --option=——————————————————

eterfinity 发表于 2018-4-19 21:56 | 显示全部楼层
GreatorK 发表于 2018-4-19 15:43
大佬,首先这个供电是指BIOS层面还是直接硬件比如TFX电源或者主板啊,我倒是更新了最新的BIOS;另外这个模 ...

你的ESXi装进u盘 关闭vt-d之后   不要把T9接上去  把别的盘接T9的位置 看增加不

然后是电源问题  实际上  你怎么改主板电源管理都是没用的 ,只能是从pcie插槽取电试试看,或者除非一种特例:你的机器里有支持RDMA的网卡,那么运行中网卡使用过的话,关机会强制等网卡释放掉
eterfinity 发表于 2018-4-19 22:00 | 显示全部楼层
GreatorK 发表于 2018-4-19 21:45
他下边这个enable_ssd也不能执行啊……重点是是不是硬件有问题啊…… ...

--option=enable_ssd
GreatorK  楼主| 发表于 2018-4-19 22:04 | 显示全部楼层
eterfinity 发表于 2018-4-19 21:56
你的ESXi装进u盘 关闭vt-d之后   不要把T9接上去  把别的盘接T9的位置 看增加不

然后是电源问题  实际上 ...

别的盘接T9位置也会增加,网卡一个是210AT,一个是219LM,其中219LM用来做 Intel AMT 远程控制,改电源管理没有用的话也就是硬件设计问题?这个就很绝望了……关键是现在用 Windows Server 也有时候无法启动,两个SSD都有过,真的开始怀疑这个供电是不是真有问题……虽然都是全新的硬件……
eterfinity 发表于 2018-4-19 22:07 | 显示全部楼层
本帖最后由 eterfinity 于 2018-4-19 22:09 编辑

此外  美国人设计的板子

特别是带完整IPMI功能的,bios里都有个开关 , 就是powercycle的方式: 完整断电再通电,还是热重置。

而且特别脑残的是, 很多板子里它不给用户操作这个开关的权利。默认是自动。

您可能不幸中招, 如果中招,只能想办法让SSD的取电来源最后一个断电。

比如打开pcie网卡的网络唤醒,然后从pcie取电。
或者更极端的打开usb唤醒,从usb取电。

再复杂点的硬件  , 比如品牌的服务器主板bios, 一般会有这个powercycle mode的控制开关给用户自己去操作

然而我们实际工作中遇到的是,,某些高端CNA改任何参数,保存后不经历完整断电都可能会导致无法被驱动。

eterfinity 发表于 2018-4-19 22:10 | 显示全部楼层
GreatorK 发表于 2018-4-19 22:04
别的盘接T9位置也会增加,网卡一个是210AT,一个是219LM,其中219LM用来做 Intel AMT 远程控制,改电源管 ...

T9上易驱线或盒子,,系统装里头,再试试T9 smart里断电还增加不
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部