NCC 健康检查:ahv_crash_file_check
NCC 健康检查:ahv_crash_file_check
NCC 健康检查:ahv_crash_file_check
描述
NCC 健康检查ahv_crash_file_check报告是否在任何集群主机上检测到任何 AHV 主机崩溃转储。
此检查是在 NCC 3.5.1 中引入的。
运行 NCC 检查
将此检查作为完整 NCC 健康检查的一部分来运行。
nutanix@cvm$ ncc health_checks run_all
或者单独运行此检查。
nutanix@cvm$ ncc 健康检查虚拟机管理程序检查 ahv_crash_file_check
从 NCC 3.0 开始,您还可以从 Prism Web 控制台健康页面运行检查:选择操作>运行检查。选择所有检查并单击运行。
在 NCC 4.0.1 之前的版本中,此检查用于查找 AHV 主机的/var/crash目录中是否存在任何崩溃转储文件。从 NCC 4.0.1 开始,仅检查过去 7 天内创建的崩溃转储文件。
如果发现崩溃转储,NCC 将显示针对所发现的特定文件的 WARN 输出。
此检查仅适用于 AHV Hypervisor。
该检查计划每天运行一次。
从 NCC 4.6.2 开始,此检查会生成警报。
示例输出
状态:警告
以下是检测到 AHV 内核崩溃转储时的检查输出示例。
正在运行:health_checks hypervisor_checks ahv_crash_file_check [====================================================] 100% /health_checks/hypervisor_checks/ahv_crash_file_check [警告] ------------------------------------------------------------------------+ ahv_crash_file_check 的详细信息:节点 xxxx:警告:在 xxxx 处发现以下崩溃文件:{name_of_dump_file}。有关 ahv_crash_file_check 的详细信息,请参阅 KB 4866 (http://portal.nutanix.com/kb/4866) 或使用以下命令重新检查:ncc health_checks hypervisor_checks ahv_crash_file_check --cvm_list=xxxx
您还可能会在 Prism/Health 中看到以下消息。
“在 AHV 主机上发现内核崩溃文件。”
“通知 Nutanix 支持人员调查内核问题。”
“内核问题可能会影响虚拟机管理程序的功能。”
“发现以下崩溃文件”
“在节点上检测到最近的 AHV 崩溃文件”
输出消息
检查身份证 | 11053 |
描述 | 检查 /var/crash 是否为空。 |
失败的原因 | 在 AHV 主机上发现内核崩溃文件。 |
决议 | 通知 Nutanix 支持调查内核问题。 |
影响 | 内核问题可能会影响虚拟机管理程序的功能。 |
解决方案
如果检测到 AHV 内核崩溃转储,请联系支持人员进一步调查生成转储文件的原因和情况,并提供指导以避免再次发生此类情况。
向支持部门提出案例时,请包括以下内容:
- NCC 检查输出。
- 带有时间戳的文件列表:
[root@ahvhost ~]# ls -lahtr /var/crash/
- 特定崩溃转储文件的副本。
注意:在极少数情况下,可能会发出警告,但不会列出崩溃文件名:
“无法在 xxxx 执行崩溃文件检查:”
在受影响的 AHV 主机上运行“ ls -lahtr /var/crash/ ”命令。如果没有找到崩溃文件,则解决警报。
收集其他信息
- 收集更多信息之前,请升级 NCC。有关升级 NCC 的信息,请参阅Nutanix KB 2871 。
- 上传在运行 NCC 检查时创建的 NCC 输出文件ncc-output-latest.log 。有关运行 NCC 和收集此文件的详细信息,请参阅Nutanix KB 2871 。
- 使用以下命令收集 Logbay 包。有关 Logbay 的更多信息,请参阅Nutanix KB 6691 。
nutanix@cvm$ logbay collect--aggregate=true
附加信息
- Nutanix KB 4866 - Nutanix 门户中的原始文档
- Nutanix 登陆页面
- Lenovo ISG 支持计划 - ThinkAgile HX 设备和Lenovo Converged HX 系列