Bilan de santé NCC : cluster_services_status
Bilan de santé NCC : cluster_services_status
Bilan de santé NCC : cluster_services_status
Description
Le contrôle de santé NCC cluster_services_status vérifie si les services Controller VM (CVM) ont récemment redémarré sur le cluster.
Cliquez ici pour afficher les services cochés
Avant NCC-3.10.1
Cette vérification s'exécute toutes les 4 heures et recherche les journaux FATAL générés au cours des dernières 24 heures.
Bien que cette vérification NCC effectue des vérifications sur l'état actuel du service et les pannes précédentes, cette vérification aboutit à un statut FAIL uniquement si un ou plusieurs services se sont écrasés plusieurs fois et ont généré un journal FATAL au cours des dernières 24 heures (5 fois sur un seul contrôleur). VM ou 10 fois sur le cluster).
Publier sur NCC-3.10.1
Cette vérification s'exécute toutes les 10 minutes et recherche les journaux FATAL générés au cours des dernières 24 heures.
La vérification échoue dans les deux cas suivants :
- Un service FATAL 10 fois à travers le cluster, en une journée pour les clusters ayant plus de 10 nœuds (OR) Le nombre de FATAL, en une journée, est supérieur ou égal au nombre de nœuds dans le cluster, pour les clusters ayant jusqu'à 10 nœuds. nœuds.
- Un service FATAL 5 fois dans un seul CVM, en une journée.
Un seul nœud du cluster signale un état FAIL de la vérification cluster_services_status au nom de tous les autres CVM du cluster. Lors de la recherche de journaux FATAL, assurez-vous de consulter tous les CVM, en utilisant la liste des services concernés du message d'état FAIL comme guide.
Si des activités de maintenance ont été récemment effectuées sur le cluster, un statut FAIL de cette vérification indique que les services sont instables, ce qui peut potentiellement affecter les performances ou la facilité de maintenance du cluster.
À partir de la version 3.5.1 de NCC, cette vérification est applicable aux machines virtuelles Prism Central dans un cluster de PC évolutif.
Exécution du contrôle NCC
Exécutez cette vérification dans le cadre des bilans de santé complets de la CCN.
nutanix@cvm$ ncc health_checks run_all
Ou vous pouvez exécuter cette vérification individuellement.
nutanix@cvm$ ncc health_checks system_checks cluster_services_status
Vous pouvez également exécuter les vérifications à partir de la page Santé de la console Web Prism : sélectionnez Actions > Exécuter les vérifications . Sélectionnez Toutes les vérifications et cliquez sur Exécuter .
Cette vérification est programmée pour s'exécuter toutes les 10 minutes, par défaut.
Cette vérification générera une alerte après 1 échec.
Exemple de sortie
Pour le statut : PASS
Exécution de /health_checks/system_checks/cluster_services_status sur tous les nœuds [ PASS ]
-------------------------------------------------- ------------+
+--------------+
| État | Comte |
+--------------+
| Passer | 1 |
| Total | 1 |
+--------------+
Sortie du plugin écrite dans /home/nutanix/data/logs/ncc-output-latest.log
Pour le statut : ÉCHEC
Informations détaillées pour cluster_services_status :
Nœud xxxx :
ÉCHEC : composants core dumpés au cours des dernières 24 heures : ['cerebro', 'curator']
Reportez-vous à la base de connaissances 3378 (http://portal.nutanix.com/kb/3378) pour plus de détails sur cluster_services_status ou revérifiez avec : ncc health_checks system_checks cluster_services_status
Message de sortie
Vérifier l'identité | 3034 |
Description | Vérifiez si les services ont récemment redémarré sur le cluster. |
Causes d'échec | Cette alerte indique qu'un ou plusieurs services du cluster ont été redémarrés. |
Résolutions | Si cette alerte se produit une fois ou rarement, aucune action n'est nécessaire. Si cela est fréquent, contactez le support Nutanix. |
Impact | Les performances du cluster peuvent être considérablement dégradées. Dans le cas de plusieurs services présentant la même condition, le cluster peut devenir incapable de répondre aux demandes d'E/S. |
ID d'alerte | A3034 |
Titre intelligent d'alerte | Redémarrage fréquent du service de cluster |
Titre de l'alerte | Services de service de cluster redémarrant fréquemment |
Message d'alerte | Il y a eu plusieurs redémarrages de services sur toutes les machines virtuelles du contrôleur. Le dernier crash de ces services s'est produit respectivement à des horodatages. |
Solution
Si la vérification cluster_services_status renvoie un état FAIL, procédez comme suit :
- Vérifiez la liste des vidages de mémoire générés sur toutes les VM du contrôleur :
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Exécutez logbay à partir de n’importe quelle machine virtuelle Controller pour collecter les fichiers journaux des dernières 24 heures. (Pour plus d'informations sur logbay , consultez Nutanix KB 6691 .)
nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
Cela génère un fichier zip dans le répertoire /home/nutanix/data/logbay/bundles/ .
Remarque : Le groupe de journaux agrégés peut devenir trop volumineux sur des clusters plus importants pour une collecte de journaux sur 24 heures. Dans un tel cas, utilisez logbay sans l'option --aggregate et téléchargez les bundles de journaux de chaque CVM vers le dossier de support.
- Vérifiez les éléments suivants et recherchez les fichiers avec *.stack_trace.txt.gz qui doivent se trouver sur le CVM qui a généré des vidages de mémoire.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Créez un nouveau dossier sur le portail de support Nutanix et joignez le résultat des commandes ci-dessus et le bundle logbay au dossier de support.
Informations Complémentaires
- Nutanix KB 3378 - Document original dans le portail Nutanix
- Page de destination de Nutanix
- Plan de support Lenovo ISG - Appliance ThinkAgile HX et Lenovo Converged HX Series