Bilan de santé de la CCN : cfs_fatal_check
Bilan de santé de la CCN : cfs_fatal_check
Bilan de santé de la CCN : cfs_fatal_check
Description
Le contrôle de santé NCC cfs_fatal_check est une vérification permettant de déterminer si le processus CFS (Collector Framework Service) est stable. Le processus CFS réside sous le service cluster_health et envoie les données Pulse à Insights. La vérification se déclenchera si le processus CFS a redémarré au moins 4 fois au cours des 2 dernières heures. Jusqu'à ce que le processus CFS soit stabilisé, l'envoi des données d'assistance à distance/Pulse Insights et de l'assistance proactive peut être retardé.
Avant d'exécuter cette vérification, mettez à niveau NCC vers la dernière version. Ce contrôle a été introduit dans NCC 4.6.1.
Exécution du contrôle NCC
Vous pouvez exécuter cette vérification dans le cadre des bilans de santé complets de la CCN.
nutanix@cvm$ ncc health_checks run_all
Ou vous pouvez exécuter cette vérification séparément.
nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check
Vous pouvez également exécuter les vérifications à partir de la page Santé de la console Web Prism. Sélectionnez Actions > Exécuter des vérifications . Sélectionnez Toutes les vérifications et cliquez sur Exécuter .
Cette vérification est programmée pour s'exécuter toutes les 7 200 secondes.
Cette vérification générera une alerte pour le processus CFS qui n'est pas dans un état stable .
Exemples de résultats
Pour le statut : PASS
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Pour le statut : Avertissement
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Message de sortie
|
140005 |
---|---|
|
Il s'agit d'une vérification permettant de déterminer si le processus CFS est stable. Le processus CFS réside sous le service cluster_health et envoie les données Pulse à Insights. La vérification se déclenchera si le processus CFS a redémarré au moins 4 fois au cours des 2 dernières heures. |
|
Le processus CFS peut redémarrer à plusieurs reprises s'il rencontre une erreur irrécupérable, ou s'il ne parvient pas à effectuer une tâche dépendant du système de fichiers ou du processus zookeeper, ou s'il est tué par un tueur de mémoire insuffisante (MOO). |
|
Le processus CFS se trouve sous le service cluster_health sur la machine virtuelle du contrôleur. Vérifiez que le service cluster_health sur le nœud concerné est en cours d'exécution. Consultez les journaux des services cfs.out et cluster_health pour plus de détails sur la cause du crash. |
|
Les données Insights et le support proactif peuvent être retardés jusqu'à ce que le processus CFS soit stabilisé. |
Solution
Pulse fournit des données de système de diagnostic au support Nutanix pour fournir une assistance proactive et contextuelle pour les solutions Nutanix. Nutanix recommande aux clients d'activer Pulse. Reportez-vous à Surveillance de la santé du pouls pour plus de détails.
- Si votre cluster exécute une version de NCC antérieure à 4.6.3.1, mettez à niveau NCC vers la dernière version à l'aide de Life Cycle Manager (LCM).
- Résolvez l'alerte « Le processus CFS n'est pas dans un état stable » depuis la console Web Prism.
- Réexécutez la vérification NCC comme indiqué ci-dessus.
- Si vous voyez toujours l’échec de la vérification NCC, exécutez la vérification NCC suivante pour vérifier la connectivité aux serveurs Nutanix Pulse Insights.
nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
- Si la vérification ci-dessus échoue, suivez les instructions de la KB-5490 pour résoudre le problème d'inaccessibilité. Il peut y avoir un problème de connectivité réseau en amont qui doit être résolu. Vérifiez votre DNS, votre routage et votre pare-feu ou ACL pour votre réseau.
- D'autres raisons de l'alerte sont que le processus CFS peut redémarrer à plusieurs reprises s'il rencontre une erreur irrécupérable, que le processus CFS ne parvient pas à effectuer une tâche dépendant du système de fichiers ou du processus zookeeper, ou s'il est arrêté en raison d'un manque de mémoire ( MOO).
- Vérifiez que le service CFS est en cours d'exécution sur le cluster :
nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Vérifiez si le service CFS est récemment tombé en panne. Dans la commande ci-dessous, le processus CFS s'exécute pendant 2 jours, 6 heures, 2 minutes et 33 secondes.
nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Recherchez FATAL récent dans le cfs.out.
nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z 13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
- Redémarrez le service cluster_health pour tenter de stabiliser le processus CFS :
nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
- Surveillez la stabilité du processus CFS en réexécutant la vérification NCC.
Articles Liés
- Article original dans le portail Nutanix : Article de la base de connaissances Nutanix : 13150
- Page de destination de Nutanix