Comprobación de estado de NCC: cluster_services_status

Este es un artículo traducido automáticamente. Haga clic aquí para ver la versión original en inglés.

Descripción

La verificación de estado de NCC cluster_services_status verifica si los servicios del controlador VM (CVM) se han reiniciado recientemente en todo el clúster.

Haga clic aquí para mostrar los servicios marcados

Antes de NCC-3.10.1

Esta verificación se ejecuta cada 4 horas y busca registros FATAL generados en las últimas 24 horas.

Aunque esta verificación de NCC realiza verificaciones del estado actual del servicio y de las fallas anteriores, esta verificación da como resultado un estado FALLO solo si uno o más servicios fallaron varias veces y generaron un registro FATAL dentro de las últimas 24 horas (5 veces en un solo controlador). VM o 10 veces en todo el clúster).

Publicar en NCC-3.10.1

Esta verificación se ejecuta cada 10 minutos y busca registros FATAL generados en las últimas 24 horas.

La verificación falla en los dos casos siguientes:

Un servicio genera 10 FATAL en todo el clúster, en un día para clústeres que tienen más de 10 nodos (O) El número de FATAL, en un día, es mayor o igual que el número de nodos en el clúster, para clústeres que tienen hasta 10 nodos.
Un servicio FATALs 5 veces en un solo CVM, en un día.

Un solo nodo en el clúster informa un estado FALLO de la verificación cluster_services_status en nombre de todos los demás CVM en el clúster. Al investigar registros FATAL, asegúrese de observar todos los CVM, utilizando la lista de servicios afectados del mensaje de estado FAIL como guía.

Si se han realizado recientemente actividades de mantenimiento en el clúster, un estado FALLO de esta verificación indica que los servicios son inestables, lo que podría afectar potencialmente el rendimiento o la capacidad de servicio del clúster.

A partir de la versión 3.5.1 de NCC, esta verificación se aplica a las máquinas virtuales Prism Central en un clúster de PC escalable.

Ejecutando la verificación NCC

Ejecute esta verificación como parte de las verificaciones de estado completas de NCC.

 nutanix@cvm$ ncc cheques de salud run_all

O puede ejecutar esta verificación individualmente.

 nutanix@cvm$ ncc comprobaciones_de_salud comprobaciones_del_sistema estado_de_servicios_del_clúster

También puede ejecutar las comprobaciones desde la página Estado de la consola web de Prism: seleccione Acciones > Ejecutar comprobaciones . Seleccione Todas las comprobaciones y haga clic en Ejecutar .

Esta verificación está programada para ejecutarse cada 10 minutos de forma predeterminada.
Esta verificación generará una alerta después de 1 falla.

Salida de muestra

Para estado: PASA

 Ejecutando /health_checks/system_checks/cluster_services_status en todos los nodos [PASS]
-------------------------------------------------- ----------------------+
+---------------+
| Estado | Contar |
+---------------+
| Pase | 1 |
| Totales | 1 |
+---------------+
Salida del complemento escrita en /home/nutanix/data/logs/ncc-output-latest.log

Para estado: FALLO

 Información detallada para cluster_services_status:
 Nodo xxxx:
 FALLO: Núcleo de componentes volcados en las últimas 24 horas: ['cerebro', 'curator']
 Consulte KB 3378 (http://portal.nutanix.com/kb/3378) para obtener detalles sobre cluster_services_status o vuelva a verificar con: ncc health_checks system_checks cluster_services_status

Mensajes de salida

Verificar identificación	3034
Descripción	Compruebe si los servicios se han reiniciado recientemente en todo el clúster.
Causas del fracaso	Esta alerta indica que se reiniciaron uno o más servicios en el clúster.
Resoluciones	Si esta alerta ocurre una vez o con poca frecuencia, no es necesaria ninguna acción. Si es frecuente, comuníquese con el soporte de Nutanix.
Impacto	El rendimiento del clúster puede verse significativamente degradado. En el caso de varios servicios con la misma condición, es posible que el clúster no pueda atender las solicitudes de E/S.
ID de alerta	A3034
Título inteligente de alerta	El servicio de clúster se reinicia con frecuencia
Título de la alerta	Servicios de Cluster Service que se reinician con frecuencia
Mensaje de alerta	Ha habido varios reinicios de servicios en todas las máquinas virtuales del controlador. La última caída de estos servicios se produjo en las marcas de tiempo respectivamente.

Solución

Si la verificación cluster_services_status devuelve un estado FAIL, haga lo siguiente:

Consulte la lista de volcados de núcleo generados en todas las máquinas virtuales del controlador:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Ejecute logbay desde cualquier máquina virtual del controlador para recopilar los archivos de registro de las últimas 24 horas. (Para obtener más información sobre Logbay , consulte Nutanix KB 6691 ).
```
 nutanix@cvm$ recopilación de logbay --aggregate=true --duration=-24h
```
Esto genera un archivo zip en el directorio /home/nutanix/data/logbay/bundles/ .
Nota: El paquete de registros agregados puede volverse demasiado grande en clústeres más grandes para la recopilación de registros las 24 horas. En tal caso, utilice logbay sin la opción --aggregate y cargue paquetes de registros de cada CVM al caso de soporte.

Verifique lo siguiente y busque archivos con *.stack_trace.txt.gz que deben estar en el CVM que generó volcados de núcleo.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Cree un nuevo caso en el portal de soporte de Nutanix y adjunte el resultado de los comandos anteriores y el paquete de logbay al caso de soporte.

información adicional

Nutanix KB 3378 - Documento original en Nutanix Portal
Página de inicio de Nutanix
Plan de soporte Lenovo ISG: dispositivo ThinkAgile HX y serie Lenovo Converged HX

ID del documento:HT516511

Fecha de publicación original:05/21/2024

Fecha de última modificación:05/30/2024