NCC 健康检查：cluster_services_status

这是机器翻译的文章，请单击此处查看原始英文版本。

描述

NCC 健康检查cluster_services_status验证控制器 VM (CVM) 服务是否最近在整个集群中重新启动。

单击此处显示已选中的服务

NCC-3.10.1 之前

此检查每 4 小时执行一次，并查找过去 24 小时内生成的 FATAL 日志。

尽管此 NCC 检查会对当前服务状态和之前的崩溃执行检查，但仅当一个或多个服务在过去 24 小时内崩溃多次并生成 FATAL 日志（单个控制器 VM 上 5 次或整个集群中 10 次）时，此检查才会导致 FAIL 状态。

发布至 NCC-3.10.1

此检查每 10 分钟执行一次，并查找过去 24 小时内生成的 FATAL 日志。

以下两种情况检查失败：

对于节点数超过 10 个的集群，一天内服务在整个集群中发生 10 次 FATAL 错误（或）对于节点数最多为 10 个的集群，一天内 FATAL 错误的数量大于或等于集群中的节点数。
一个服务在一天之内在单个 CVM 中发生 5 次 FATAL。

集群中的单个节点代表集群中的所有其他 CVM 报告cluster_services_status检查的 FAIL 状态。调查 FATAL 日志时，请确保查看所有 CVM，并使用 FAIL 状态消息中受影响的服务列表作为指导。

如果最近对集群执行了维护活动，则此检查的 FAIL 状态表示服务不稳定，这可能会影响集群性能或可服务性。

从 NCC 版本 3.5.1 开始，此检查适用于横向扩展 PC 集群中的 Prism Central VM。

运行 NCC 检查

将此检查作为完整 NCC 健康检查的一部分来运行。

 nutanix@cvm$ ncc health_checks run_all

或者您可以单独运行此检查。

 nutanix@cvm$ ncc 健康检查系统检查集群服务状态

您还可以从 Prism Web 控制台健康页面运行检查：选择操作>运行检查。选择所有检查并单击运行。

默认情况下，此检查每 10 分钟运行一次。
此项检查将在 1 次失败后生成警报。

示例输出

状态：通过

在所有节点上运行 /health_checks/system_checks/cluster_services_status [通过]
----------------------------------------------------------------------------------+
+---------------+
| 州 | 计数 |
+---------------+
| 通过 | 1 |
| 总计 | 1 |
+---------------+
插件输出写入 /home/nutanix/data/logs/ncc-output-latest.log

状态：失败

cluster_services_status 的详细信息：
节点xxxx：
失败：过去 24 小时内转储的组件核心：[‘cerebro’，‘curator’]
有关 cluster_services_status 的详细信息，请参阅 KB 3378 (http://portal.nutanix.com/kb/3378) 或使用以下命令重新检查：ncc health_checks system_checks cluster_services_status

输出消息

检查身份证	3034
描述	检查集群中的服务是否最近重新启动。
失败的原因	此警报表示群集中的一个或多个服务已重新启动。
决议	如果此警报仅出现一次或不频繁出现，则无需采取任何措施。如果频繁出现，请联系 Nutanix 支持。
影响	集群性能可能会显著下降。当多个服务出现相同情况时，集群可能无法满足 I/O 请求。
警报编号	A3034
警报智能标题	集群服务频繁重启
警报标题	集群服务频繁重启
警报消息	所有控制器虚拟机上的服务已多次重新启动。这些服务的最新崩溃分别发生在时间戳。

解决方案

如果cluster_services_status检查返回 FAIL 状态，请执行以下操作：

检查所有控制器虚拟机上生成的核心转储列表：
```
 nutanix@cvm$ allssh'ls-ltr/home/nutanix/data/cores'
```

从任何控制器虚拟机运行logbay以收集过去 24 小时的日志文件。（有关logbay的更多信息，请参阅Nutanix KB 6691。）
```
 nutanix@cvm$ logbay collect--aggregate=true--duration=-24h
```
这会在目录/home/nutanix/data/logbay/bundles/中生成一个 zip 文件。
注意：在较大的集群上，聚合日志包可能会变得太大，无法进行 24 小时日志收集。在这种情况下，请使用不带--aggregate选项的 logbay，并将日志包从每个 CVM 上传到支持案例。

验证以下内容并查找带有*.stack_trace.txt.gz的文件，该文件必须位于生成核心转储的 CVM 上。
```
 nutanix@cvm$ allssh'ls-ltr/home/nutanix/data/cores'
```

在Nutanix 支持门户上创建一个新案例，并将上述命令的输出和 logbay 包附加到支持案例。

附加信息

Nutanix KB 3378 - Nutanix 门户中的原始文档
Nutanix 登陆页面
Lenovo ISG 支持计划 - ThinkAgile HX 设备和Lenovo Converged HX 系列

文件ID:HT516511

初始发布日期:05/21/2024

最近修改日期:05/30/2024