Comprobación de estado de NCC: cluster_services_status
Comprobación de estado de NCC: cluster_services_status
Comprobación de estado de NCC: cluster_services_status
Descripción
La verificación de estado de NCC cluster_services_status verifica si los servicios del controlador VM (CVM) se han reiniciado recientemente en todo el clúster.
Haga clic aquí para mostrar los servicios marcados
Antes de NCC-3.10.1
Esta verificación se ejecuta cada 4 horas y busca registros FATAL generados en las últimas 24 horas.
Aunque esta verificación de NCC realiza verificaciones del estado actual del servicio y de las fallas anteriores, esta verificación da como resultado un estado FALLO solo si uno o más servicios fallaron varias veces y generaron un registro FATAL dentro de las últimas 24 horas (5 veces en un solo controlador). VM o 10 veces en todo el clúster).
Publicar en NCC-3.10.1
Esta verificación se ejecuta cada 10 minutos y busca registros FATAL generados en las últimas 24 horas.
La verificación falla en los dos casos siguientes:
- Un servicio genera 10 FATAL en todo el clúster, en un día para clústeres que tienen más de 10 nodos (O) El número de FATAL, en un día, es mayor o igual que el número de nodos en el clúster, para clústeres que tienen hasta 10 nodos.
- Un servicio FATALs 5 veces en un solo CVM, en un día.
Un solo nodo en el clúster informa un estado FALLO de la verificación cluster_services_status en nombre de todos los demás CVM en el clúster. Al investigar registros FATAL, asegúrese de observar todos los CVM, utilizando la lista de servicios afectados del mensaje de estado FAIL como guía.
Si se han realizado recientemente actividades de mantenimiento en el clúster, un estado FALLO de esta verificación indica que los servicios son inestables, lo que podría afectar potencialmente el rendimiento o la capacidad de servicio del clúster.
A partir de la versión 3.5.1 de NCC, esta verificación se aplica a las máquinas virtuales Prism Central en un clúster de PC escalable.
Ejecutando la verificación NCC
Ejecute esta verificación como parte de las verificaciones de estado completas de NCC.
nutanix@cvm$ ncc cheques de salud run_all
O puede ejecutar esta verificación individualmente.
nutanix@cvm$ ncc comprobaciones_de_salud comprobaciones_del_sistema estado_de_servicios_del_clúster
También puede ejecutar las comprobaciones desde la página Estado de la consola web de Prism: seleccione Acciones > Ejecutar comprobaciones . Seleccione Todas las comprobaciones y haga clic en Ejecutar .
Esta verificación está programada para ejecutarse cada 10 minutos de forma predeterminada.
Esta verificación generará una alerta después de 1 falla.
Salida de muestra
Para estado: PASA
Ejecutando /health_checks/system_checks/cluster_services_status en todos los nodos [PASS]
-------------------------------------------------- ----------------------+
+---------------+
| Estado | Contar |
+---------------+
| Pase | 1 |
| Totales | 1 |
+---------------+
Salida del complemento escrita en /home/nutanix/data/logs/ncc-output-latest.log
Para estado: FALLO
Información detallada para cluster_services_status:
Nodo xxxx:
FALLO: Núcleo de componentes volcados en las últimas 24 horas: ['cerebro', 'curator']
Consulte KB 3378 (http://portal.nutanix.com/kb/3378) para obtener detalles sobre cluster_services_status o vuelva a verificar con: ncc health_checks system_checks cluster_services_status
Mensajes de salida
Verificar identificación | 3034 |
Descripción | Compruebe si los servicios se han reiniciado recientemente en todo el clúster. |
Causas del fracaso | Esta alerta indica que se reiniciaron uno o más servicios en el clúster. |
Resoluciones | Si esta alerta ocurre una vez o con poca frecuencia, no es necesaria ninguna acción. Si es frecuente, comuníquese con el soporte de Nutanix. |
Impacto | El rendimiento del clúster puede verse significativamente degradado. En el caso de varios servicios con la misma condición, es posible que el clúster no pueda atender las solicitudes de E/S. |
ID de alerta | A3034 |
Título inteligente de alerta | El servicio de clúster se reinicia con frecuencia |
Título de la alerta | Servicios de Cluster Service que se reinician con frecuencia |
Mensaje de alerta | Ha habido varios reinicios de servicios en todas las máquinas virtuales del controlador. La última caída de estos servicios se produjo en las marcas de tiempo respectivamente. |
Solución
Si la verificación cluster_services_status devuelve un estado FAIL, haga lo siguiente:
- Consulte la lista de volcados de núcleo generados en todas las máquinas virtuales del controlador:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Ejecute logbay desde cualquier máquina virtual del controlador para recopilar los archivos de registro de las últimas 24 horas. (Para obtener más información sobre Logbay , consulte Nutanix KB 6691 ).
nutanix@cvm$ recopilación de logbay --aggregate=true --duration=-24h
Esto genera un archivo zip en el directorio /home/nutanix/data/logbay/bundles/ .
Nota: El paquete de registros agregados puede volverse demasiado grande en clústeres más grandes para la recopilación de registros las 24 horas. En tal caso, utilice logbay sin la opción --aggregate y cargue paquetes de registros de cada CVM al caso de soporte.
- Verifique lo siguiente y busque archivos con *.stack_trace.txt.gz que deben estar en el CVM que generó volcados de núcleo.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Cree un nuevo caso en el portal de soporte de Nutanix y adjunte el resultado de los comandos anteriores y el paquete de logbay al caso de soporte.
información adicional
- Nutanix KB 3378 - Documento original en Nutanix Portal
- Página de inicio de Nutanix
- Plan de soporte Lenovo ISG: dispositivo ThinkAgile HX y serie Lenovo Converged HX