NCC-Integritätsprüfung: cfs_fatal_check
NCC-Integritätsprüfung: cfs_fatal_check
NCC-Integritätsprüfung: cfs_fatal_check
Beschreibung
Der NCC-Integritätscheck cfs_fatal_check ist eine Prüfung, um festzustellen, ob der CFS-Prozess (Collector Framework Service) stabil ist. Der CFS-Prozess befindet sich unter dem Dienst cluster_health und sendet Pulse-Daten an Insights. Die Prüfung wird ausgelöst, wenn der CFS-Prozess in den letzten 2 Stunden mindestens 4 Mal neu gestartet wurde. Bis sich der CFS-Prozess stabilisiert hat, kann sich das Senden von Remote-Support-/Pulse-Insights-Daten und proaktivem Support verzögern.
Aktualisieren Sie NCC auf die neueste Version, bevor Sie diese Prüfung ausführen. Diese Prüfung wurde in NCC 4.6.1 eingeführt.
Ausführen der NCC-Prüfung
Sie können diese Prüfung als Teil der vollständigen NCC-Integritätsprüfungen durchführen.
nutanix@cvm$ ncc health_checks run_all
Oder Sie können diese Prüfung separat ausführen.
nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check
Sie können die Prüfungen auch von der Integritätsseite der Prism-Webkonsole aus ausführen. Wählen Sie Aktionen > Prüfungen ausführen . Wählen Sie Alle Prüfungen aus und klicken Sie auf Ausführen .
Diese Prüfung soll alle 7200 Sekunden ausgeführt werden.
Diese Prüfung generiert eine Warnung für den CFS-Prozess, der sich nicht in einem stabilen Zustand befindet .
Beispielausgaben
Für Status: PASS
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Für Status: Warnung
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Ausgabenachrichten
|
140005 |
---|---|
|
Dies ist eine Prüfung, um festzustellen, ob der CFS-Prozess stabil ist. Der CFS-Prozess befindet sich unter dem Dienst cluster_health und sendet Pulse-Daten an Insights. Die Prüfung wird ausgelöst, wenn der CFS-Prozess in den letzten 2 Stunden mindestens 4 Mal neu gestartet wurde. |
|
Der CFS-Prozess könnte wiederholt neu gestartet werden, wenn ein nicht behebbarer Fehler auftritt, wenn der CFS-Prozess eine vom Dateisystem oder Zookeeper-Prozess abhängige Aufgabe nicht ausführen kann oder wenn er durch einen Out-of-Memory-(OOM-)Killer beendet wird. |
|
Der CFS-Prozess befindet sich unter dem cluster_health-Dienst auf der Controller-VM. Überprüfen Sie, ob der cluster_health-Dienst auf dem betroffenen Knoten ausgeführt wird. Weitere Einzelheiten zur Absturzursache finden Sie in den Dienstprotokollen cfs.out und cluster_health. |
|
Bis sich der CFS-Prozess stabilisiert hat, können sich die Bereitstellung von Erkenntnisdaten und proaktiver Unterstützung verzögern. |
Lösung
Pulse stellt dem Nutanix-Support diagnostische Systemdaten zur Verfügung, um proaktiven, kontextbezogenen Support für Nutanix-Lösungen zu bieten. Nutanix empfiehlt Kunden, Pulse zu aktivieren. Weitere Einzelheiten finden Sie unter Pulse Health Monitoring .
- Wenn auf Ihrem Cluster eine NCC-Version ausgeführt wird, die älter als 4.6.3.1 ist, aktualisieren Sie NCC mithilfe des Life Cycle Manager (LCM) auf die neueste Version.
- Beheben Sie die Warnung „Der CFS-Prozess befindet sich nicht in einem stabilen Zustand“ aus der Prism-Webkonsole.
- Führen Sie die NCC-Prüfung wie oben beschrieben erneut durch.
- Wenn der NCC-Prüffehler weiterhin auftritt, führen Sie die folgende NCC-Prüfung aus, um die Konnektivität mit den Nutanix Pulse Insights-Servern zu überprüfen.
nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
- Wenn die obige Prüfung fehlschlägt, befolgen Sie die Anweisungen in KB-5490, um die Nichterreichbarkeit zu beheben. Möglicherweise liegt ein Upstream-Netzwerkkonnektivitätsproblem vor, das behoben werden muss. Überprüfen Sie DNS, Routing und Firewall oder ACLs für Ihr Netzwerk.
- Andere Gründe für die Warnung sind, dass der CFS-Prozess möglicherweise wiederholt neu gestartet wird, wenn ein nicht behebbarer Fehler auftritt, der CFS-Prozess eine vom Dateisystem oder Zookeeper-Prozess abhängige Aufgabe nicht ausführen kann oder wenn er aufgrund von Arbeitsspeicherproblemen (OOM) beendet wird.
- Überprüfen Sie, ob der CFS-Dienst auf dem Cluster ausgeführt wird:
nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Überprüfen Sie, ob der CFS-Dienst kürzlich abgestürzt ist. Im folgenden Befehl läuft der CFS-Prozess 2 Tage, 6 Stunden, 2 Minuten und 33 Sekunden.
nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Suchen Sie in cfs.out nach aktuellen FATAL-Fehlern.
nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z 13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
- Starten Sie den Dienst cluster_health neu, um zu versuchen, den CFS-Prozess zu stabilisieren:
nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
- Überwachen Sie die Stabilität des CFS-Prozesses, indem Sie die NCC-Prüfung erneut ausführen.
In Verbindung stehende Artikel
- Originalartikel im Nutanix-Portal: Nutanix KB-Artikel : 13150
- Nutanix-Landingpage