Bilan de santé de la CCN : cfs_fatal_check

Cet article a été traduit automatiquement, veuillez cliquer ici pour afficher la version originale rédigée en anglais.

Description

Le contrôle de santé NCC cfs_fatal_check est une vérification permettant de déterminer si le processus CFS (Collector Framework Service) est stable. Le processus CFS réside sous le service cluster_health et envoie les données Pulse à Insights. La vérification se déclenchera si le processus CFS a redémarré au moins 4 fois au cours des 2 dernières heures. Jusqu'à ce que le processus CFS soit stabilisé, l'envoi des données d'assistance à distance/Pulse Insights et de l'assistance proactive peut être retardé.

Avant d'exécuter cette vérification, mettez à niveau NCC vers la dernière version. Ce contrôle a été introduit dans NCC 4.6.1.

Exécution du contrôle NCC

Vous pouvez exécuter cette vérification dans le cadre des bilans de santé complets de la CCN.

 nutanix@cvm$ ncc health_checks run_all

Ou vous pouvez exécuter cette vérification séparément.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

Vous pouvez également exécuter les vérifications à partir de la page Santé de la console Web Prism. Sélectionnez Actions > Exécuter des vérifications . Sélectionnez Toutes les vérifications et cliquez sur Exécuter .

Cette vérification est programmée pour s'exécuter toutes les 7 200 secondes.
Cette vérification générera une alerte pour le processus CFS qui n'est pas dans un état stable .

Exemples de résultats

Pour le statut : PASS

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour le statut : Avertissement

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Message de sortie

Vérifier l'identité	140005
Description	Il s'agit d'une vérification permettant de déterminer si le processus CFS est stable. Le processus CFS réside sous le service cluster_health et envoie les données Pulse à Insights. La vérification se déclenchera si le processus CFS a redémarré au moins 4 fois au cours des 2 dernières heures.
Causes d'échec	Le processus CFS peut redémarrer à plusieurs reprises s'il rencontre une erreur irrécupérable, ou s'il ne parvient pas à effectuer une tâche dépendant du système de fichiers ou du processus zookeeper, ou s'il est tué par un tueur de mémoire insuffisante (MOO).
Résolutions	Le processus CFS se trouve sous le service cluster_health sur la machine virtuelle du contrôleur. Vérifiez que le service cluster_health sur le nœud concerné est en cours d'exécution. Consultez les journaux des services cfs.out et cluster_health pour plus de détails sur la cause du crash.
Impact	Les données Insights et le support proactif peuvent être retardés jusqu'à ce que le processus CFS soit stabilisé.

Solution

Pulse fournit des données de système de diagnostic au support Nutanix pour fournir une assistance proactive et contextuelle pour les solutions Nutanix. Nutanix recommande aux clients d'activer Pulse. Reportez-vous à Surveillance de la santé du pouls pour plus de détails.

Si votre cluster exécute une version de NCC antérieure à 4.6.3.1, mettez à niveau NCC vers la dernière version à l'aide de Life Cycle Manager (LCM).
Résolvez l'alerte « Le processus CFS n'est pas dans un état stable » depuis la console Web Prism.
Réexécutez la vérification NCC comme indiqué ci-dessus.
- Si vous voyez toujours l’échec de la vérification NCC, exécutez la vérification NCC suivante pour vérifier la connectivité aux serveurs Nutanix Pulse Insights.

 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks

Si la vérification ci-dessus échoue, suivez les instructions de la KB-5490 pour résoudre le problème d'inaccessibilité. Il peut y avoir un problème de connectivité réseau en amont qui doit être résolu. Vérifiez votre DNS, votre routage et votre pare-feu ou ACL pour votre réseau.

D'autres raisons de l'alerte sont que le processus CFS peut redémarrer à plusieurs reprises s'il rencontre une erreur irrécupérable, que le processus CFS ne parvient pas à effectuer une tâche dépendant du système de fichiers ou du processus zookeeper, ou s'il est arrêté en raison d'un manque de mémoire ( MOO).
- Vérifiez que le service CFS est en cours d'exécution sur le cluster :

 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200

Vérifiez si le service CFS est récemment tombé en panne. Dans la commande ci-dessous, le processus CFS s'exécute pendant 2 jours, 6 heures, 2 minutes et 33 secondes.

 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200

Recherchez FATAL récent dans le cfs.out.

 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .

Redémarrez le service cluster_health pour tenter de stabiliser le processus CFS :

 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start

Surveillez la stabilité du processus CFS en réexécutant la vérification NCC.