Bilan de santé NCC : cluster_services_status

Cet article a été traduit automatiquement, veuillez cliquer ici pour afficher la version originale rédigée en anglais.

Description

Le contrôle de santé NCC cluster_services_status vérifie si les services Controller VM (CVM) ont récemment redémarré sur le cluster.

Cliquez ici pour afficher les services cochés

Avant NCC-3.10.1

Cette vérification s'exécute toutes les 4 heures et recherche les journaux FATAL générés au cours des dernières 24 heures.

Bien que cette vérification NCC effectue des vérifications sur l'état actuel du service et les pannes précédentes, cette vérification aboutit à un statut FAIL uniquement si un ou plusieurs services se sont écrasés plusieurs fois et ont généré un journal FATAL au cours des dernières 24 heures (5 fois sur un seul contrôleur). VM ou 10 fois sur le cluster).

Publier sur NCC-3.10.1

Cette vérification s'exécute toutes les 10 minutes et recherche les journaux FATAL générés au cours des dernières 24 heures.

La vérification échoue dans les deux cas suivants :

Un service FATAL 10 fois à travers le cluster, en une journée pour les clusters ayant plus de 10 nœuds (OR) Le nombre de FATAL, en une journée, est supérieur ou égal au nombre de nœuds dans le cluster, pour les clusters ayant jusqu'à 10 nœuds. nœuds.
Un service FATAL 5 fois dans un seul CVM, en une journée.

Un seul nœud du cluster signale un état FAIL de la vérification cluster_services_status au nom de tous les autres CVM du cluster. Lors de la recherche de journaux FATAL, assurez-vous de consulter tous les CVM, en utilisant la liste des services concernés du message d'état FAIL comme guide.

Si des activités de maintenance ont été récemment effectuées sur le cluster, un statut FAIL de cette vérification indique que les services sont instables, ce qui peut potentiellement affecter les performances ou la facilité de maintenance du cluster.

À partir de la version 3.5.1 de NCC, cette vérification est applicable aux machines virtuelles Prism Central dans un cluster de PC évolutif.

Exécution du contrôle NCC

Exécutez cette vérification dans le cadre des bilans de santé complets de la CCN.

 nutanix@cvm$ ncc health_checks run_all

Ou vous pouvez exécuter cette vérification individuellement.

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

Vous pouvez également exécuter les vérifications à partir de la page Santé de la console Web Prism : sélectionnez Actions > Exécuter les vérifications . Sélectionnez Toutes les vérifications et cliquez sur Exécuter .

Cette vérification est programmée pour s'exécuter toutes les 10 minutes, par défaut.
Cette vérification générera une alerte après 1 échec.

Exemple de sortie

Pour le statut : PASS

 Exécution de /health_checks/system_checks/cluster_services_status sur tous les nœuds [ PASS ]
-------------------------------------------------- ------------+
+--------------+
| État | Comte |
+--------------+
| Passer | 1 |
| Total | 1 |
+--------------+
Sortie du plugin écrite dans /home/nutanix/data/logs/ncc-output-latest.log

Pour le statut : ÉCHEC

 Informations détaillées pour cluster_services_status :
 Nœud xxxx :
 ÉCHEC : composants core dumpés au cours des dernières 24 heures : ['cerebro', 'curator']
 Reportez-vous à la base de connaissances 3378 (http://portal.nutanix.com/kb/3378) pour plus de détails sur cluster_services_status ou revérifiez avec : ncc health_checks system_checks cluster_services_status

Message de sortie

Vérifier l'identité	3034
Description	Vérifiez si les services ont récemment redémarré sur le cluster.
Causes d'échec	Cette alerte indique qu'un ou plusieurs services du cluster ont été redémarrés.
Résolutions	Si cette alerte se produit une fois ou rarement, aucune action n'est nécessaire. Si cela est fréquent, contactez le support Nutanix.
Impact	Les performances du cluster peuvent être considérablement dégradées. Dans le cas de plusieurs services présentant la même condition, le cluster peut devenir incapable de répondre aux demandes d'E/S.
ID d'alerte	A3034
Titre intelligent d'alerte	Redémarrage fréquent du service de cluster
Titre de l'alerte	Services de service de cluster redémarrant fréquemment
Message d'alerte	Il y a eu plusieurs redémarrages de services sur toutes les machines virtuelles du contrôleur. Le dernier crash de ces services s'est produit respectivement à des horodatages.

Solution

Si la vérification cluster_services_status renvoie un état FAIL, procédez comme suit :

Vérifiez la liste des vidages de mémoire générés sur toutes les VM du contrôleur :
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Exécutez logbay à partir de n’importe quelle machine virtuelle Controller pour collecter les fichiers journaux des dernières 24 heures. (Pour plus d'informations sur logbay , consultez Nutanix KB 6691 .)
```
 nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
```
Cela génère un fichier zip dans le répertoire /home/nutanix/data/logbay/bundles/ .
Remarque : Le groupe de journaux agrégés peut devenir trop volumineux sur des clusters plus importants pour une collecte de journaux sur 24 heures. Dans un tel cas, utilisez logbay sans l'option --aggregate et téléchargez les bundles de journaux de chaque CVM vers le dossier de support.

Vérifiez les éléments suivants et recherchez les fichiers avec *.stack_trace.txt.gz qui doivent se trouver sur le CVM qui a généré des vidages de mémoire.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Créez un nouveau dossier sur le portail de support Nutanix et joignez le résultat des commandes ci-dessus et le bundle logbay au dossier de support.

Informations Complémentaires

Nutanix KB 3378 - Document original dans le portail Nutanix
Page de destination de Nutanix
Plan de support Lenovo ISG - Appliance ThinkAgile HX et Lenovo Converged HX Series

ID Document:HT516511

Date de publication originale:05/21/2024

Date de dernière modification:05/30/2024