NCC 健康检查:ahv_crash_file_check

NCC 健康检查:ahv_crash_file_check

NCC 健康检查:ahv_crash_file_check

这是机器翻译的文章,请单击此处查看原始英文版本。

描述

NCC 健康检查ahv_crash_file_check报告是否在任何集群主机上检测到任何 AHV 主机崩溃转储。

此检查是在 NCC 3.5.1 中引入的。

运行 NCC 检查

将此检查作为完整 NCC 健康检查的一部分来运行。

 nutanix@cvm$ ncc health_checks run_all

或者单独运行此检查。

 nutanix@cvm$ ncc 健康检查虚拟机管理程序检查 ahv_crash_file_check

从 NCC 3.0 开始,您还可以从 Prism Web 控制台健康页面运行检查:选择操作>运行检查。选择所有检查并单击运行

在 NCC 4.0.1 之前的版本中,此检查用于查找 AHV 主机的/var/crash目录中是否存在任何崩溃转储文件。从 NCC 4.0.1 开始,仅检查过去 7 天内创建的崩溃转储文件。
如果发现崩溃转储,NCC 将显示针对所发现的特定文件的 WARN 输出。

此检查仅适用于 AHV Hypervisor。

该检查计划每天运行一次。

从 NCC 4.6.2 开始,此检查会生成警报。

示例输出

状态:警告

以下是检测到 AHV 内核崩溃转储时的检查输出示例。

正在运行:health_checks hypervisor_checks ahv_crash_file_check [====================================================] 100% /health_checks/hypervisor_checks/ahv_crash_file_check [警告] ------------------------------------------------------------------------+ ahv_crash_file_check 的详细信息:节点 xxxx:警告:在 xxxx 处发现以下崩溃文件:{name_of_dump_file}。有关 ahv_crash_file_check 的详细信息,请参阅 KB 4866 (http://portal.nutanix.com/kb/4866) 或使用以下命令重新检查:ncc health_checks hypervisor_checks ahv_crash_file_check --cvm_list=xxxx

您还可能会在 Prism/Health 中看到以下消息。

 “在 AHV 主机上发现内核崩溃文件。”
“通知 Nutanix 支持人员调查内核问题。”
“内核问题可能会影响虚拟机管理程序的功能。”
“发现以下崩溃文件”
“在节点上检测到最近的 AHV 崩溃文件”

输出消息

检查身份证 11053
描述 检查 /var/crash 是否为空。
失败的原因 在 AHV 主机上发现内核崩溃文件。
决议 通知 Nutanix 支持调查内核问题。
影响 内核问题可能会影响虚拟机管理程序的功能。

解决方案

如果检测到 AHV 内核崩溃转储,请联系支持人员进一步调查生成转储文件的原因和情况,并提供指导以避免再次发生此类情况。

向支持部门提出案例时,请包括以下内容:

  • NCC 检查输出。
  • 带有时间戳的文件列表:
     [root@ahvhost ~]# ls -lahtr /var/crash/
  • 特定崩溃转储文件的副本。

注意:在极少数情况下,可能会发出警告,但不会列出崩溃文件名:

 “无法在 xxxx 执行崩溃文件检查:”

在受影响的 AHV 主机上运行“ ls -lahtr /var/crash/ ”命令。如果没有找到崩溃文件,则解决警报。

收集其他信息

  • 收集更多信息之前,请升级 NCC。有关升级 NCC 的信息,请参阅Nutanix KB 2871
  • 上传在运行 NCC 检查时创建的 NCC 输出文件ncc-output-latest.log 。有关运行 NCC 和收集此文件的详细信息,请参阅Nutanix KB 2871
  • 使用以下命令收集 Logbay 包。有关 Logbay 的更多信息,请参阅Nutanix KB 6691
 nutanix@cvm$ logbay collect--aggregate=true

附加信息

文件ID:HT516510
初始发布日期:05/21/2024
最近修改日期:05/30/2024