NCC 健康检查:cluster_services_status

NCC 健康检查:cluster_services_status

NCC 健康检查:cluster_services_status

这是机器翻译的文章,请单击此处查看原始英文版本。

描述

NCC 健康检查cluster_services_status验证控制器 VM (CVM) 服务是否最近在整个集群中重新启动。

单击此处显示已选中的服务

NCC-3.10.1 之前

此检查每 4 小时执行一次,并查找过去 24 小时内生成的 FATAL 日志。

尽管此 NCC 检查会对当前服务状态和之前的崩溃执行检查,但仅当一个或多个服务在过去 24 小时内崩溃多次并生成 FATAL 日志(单个控制器 VM 上 5 次或整个集群中 10 次)时,此检查才会导致 FAIL 状态。

发布至 NCC-3.10.1

此检查每 10 分钟执行一次,并查找过去 24 小时内生成的 FATAL 日志。

以下两种情况检查失败:

  • 对于节点数超过 10 个的集群,一天内服务在整个集群中发生 10 次 FATAL 错误(或)对于节点数最多为 10 个的集群,一天内 FATAL 错误的数量大于或等于集群中的节点数。
  • 一个服务在一天之内在单个 CVM 中发生 5 次 FATAL。

集群中的单个节点代表集群中的所有其他 CVM 报告cluster_services_status检查的 FAIL 状态。调查 FATAL 日志时,请确保查看所有 CVM,并使用 FAIL 状态消息中受影响的服务列表作为指导。

如果最近对集群执行了维护活动,则此检查的 FAIL 状态表示服务不稳定,这可能会影响集群性能或可服务性。

从 NCC 版本 3.5.1 开始,此检查适用于横向扩展 PC 集群中的 Prism Central VM。

运行 NCC 检查

将此检查作为完整 NCC 健康检查的一部分来运行。

 nutanix@cvm$ ncc health_checks run_all

或者您可以单独运行此检查。

 nutanix@cvm$ ncc 健康检查系统检查集群服务状态

您还可以从 Prism Web 控制台健康页面运行检查:选择操作>运行检查。选择所有检查并单击运行

默认情况下,此检查每 10 分钟运行一次。
此项检查将在 1 次失败后生成警报。

示例输出

状态:通过

在所有节点上运行 /health_checks/system_checks/cluster_services_status [通过]
----------------------------------------------------------------------------------+
+---------------+
| 州 | 计数 |
+---------------+
| 通过 | 1 |
| 总计 | 1 |
+---------------+
插件输出写入 /home/nutanix/data/logs/ncc-output-latest.log

状态:失败

cluster_services_status 的详细信息:
节点xxxx:
失败:过去 24 小时内转储的组件核心:[‘cerebro’,‘curator’]
有关 cluster_services_status 的详细信息,请参阅 KB 3378 (http://portal.nutanix.com/kb/3378) 或使用以下命令重新检查:ncc health_checks system_checks cluster_services_status

输出消息

检查身份证 3034
描述 检查集群中的服务是否最近重新启动。
失败的原因 此警报表示群集中的一个或多个服务已重新启动。
决议 如果此警报仅出现一次或不频繁出现,则无需采取任何措施。如果频繁出现,请联系 Nutanix 支持。
影响 集群性能可能会显著下降。当多个服务出现相同情况时,集群可能无法满足 I/O 请求。
警报编号 A3034
警报智能标题 集群服务频繁重启
警报标题 集群服务频繁重启
警报消息 所有控制器虚拟机上的服务已多次重新启动。这些服务的最新崩溃分别发生在时间戳。

解决方案

如果cluster_services_status检查返回 FAIL 状态,请执行以下操作:

  1. 检查所有控制器虚拟机上生成的核心转储列表:
     nutanix@cvm$ allssh'ls-ltr/home/nutanix/data/cores'
  1. 从任何控制器虚拟机运行logbay以收集过去 24 小时的日志文件。(有关logbay的更多信息,请参阅Nutanix KB 6691。
     nutanix@cvm$ logbay collect--aggregate=true--duration=-24h
    这会在目录/home/nutanix/data/logbay/bundles/中生成一个 zip 文件。
    注意:在较大的集群上,聚合日志包可能会变得太大,无法进行 24 小时日志收集。在这种情况下,请使用不带--aggregate选项的 logbay,并将日志包从每个 CVM 上传到支持案例。
  1. 验证以下内容并查找带有*.stack_trace.txt.gz的文件,该文件必须位于生成核心转储的 CVM 上。
     nutanix@cvm$ allssh'ls-ltr/home/nutanix/data/cores'
  1. Nutanix 支持门户上创建一个新案例,并将上述命令的输出和 logbay 包附加到支持案例。

附加信息

文件ID:HT516511
初始发布日期:05/21/2024
最近修改日期:05/30/2024