Poznámka: Tato webová stránka obsahuje systém přístupnosti. Stisknutím klávesy Control-F11 upravte web pro zrakově postižené, kteří používají čtečku obrazovky; Stisknutím klávesy Control-F10 otevřete nabídku přístupnosti.

Kontrola stavu NCC: cfs_fatal_check

Kontrola stavu NCC: cfs_fatal_check

Kontrola stavu NCC: cfs_fatal_check

Tento článek byl přeložen automatem, původní anglickou verzi zobrazíte kliknutím sem.

Popis

Kontrola stavu NCC cfs_fatal_check je kontrola, která určuje, zda je proces CFS (Collector Framework Service) stabilní. Proces CFS je umístěn pod službou cluster_health a odesílá data Pulse do Insights. Kontrola se spustí, pokud se proces CFS restartoval alespoň 4krát za poslední 2 hodiny. Dokud se proces CFS nestabilizuje, může být odesílání dat vzdálené podpory/pulsních Insights a proaktivní podpora zpožděno.

Před spuštěním této kontroly upgradujte NCC na nejnovější verzi. Tato kontrola byla zavedena v NCC 4.6.1.

Spuštění kontroly NCC

Tuto kontrolu můžete spustit jako součást kompletních kontrol stavu NCC.

 nutanix@cvm$ ncc health_checks run_all

Nebo můžete tuto kontrolu spustit samostatně.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

Kontroly můžete také spustit ze stránky Zdraví webové konzole Prism. Vyberte Akce > Spustit kontroly . Vyberte Všechny kontroly a klikněte na Spustit .

Tato kontrola je naplánována na každých 7200 sekund.
Tato kontrola vygeneruje proces CFS, který není ve stabilním stavu výstrahy.

Ukázkové výstupy

Pro stav: PASS

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pro Stav: Varování

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Výstupní zprávy

Zkontrolujte ID
140005
Popis
Toto je kontrola, která má určit, zda je proces CFS stabilní. Proces CFS je umístěn pod službou cluster_health a odesílá data Pulse do Insights. Kontrola se spustí, pokud se proces CFS restartoval alespoň 4krát za poslední 2 hodiny.
Příčiny neúspěchu
Proces CFS by se mohl opakovaně restartovat, pokud narazí na neopravitelnou chybu, nebo pokud proces CFS selže při provádění úlohy závislé na souborovém systému nebo procesu zookeeper, nebo pokud je zabit zabijákem Out Of Memory (OOM).
Usnesení
Proces CFS je umístěn pod službou cluster_health na virtuálním počítači Controller. Ověřte, zda je služba cluster_health v postiženém uzlu spuštěna. Další podrobnosti o příčině selhání naleznete v protokolech služeb cfs.out a cluster_health.
Dopad
Data Insights a proaktivní podpora mohou být zpožděny, dokud se proces CFS nestabilizuje.

Řešení

Pulse poskytuje diagnostická systémová data podpoře Nutanix, aby poskytovala proaktivní, kontextovou podporu řešení Nutanix. Nutanix doporučuje zákazníkům aktivovat puls. Další podrobnosti naleznete v části Monitorování stavu pulsu .

  • Pokud váš cluster používá verzi NCC starší než 4.6.3.1, upgradujte NCC na nejnovější verzi pomocí Life Cycle Manager (LCM).
  • Vyřešte výstrahu „proces CFS není ve stabilním stavu“ z webové konzoly Prism.
  • Znovu spusťte kontrolu NCC podle výše uvedených pokynů.
    • Pokud stále vidíte selhání kontroly NCC, spusťte následující kontrolu NCC a ověřte připojení k serverům Nutanix Pulse Insights.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Pokud výše uvedená kontrola selže, postupujte podle pokynů KB-5490 a vyřešte nedostupnost. Může nastat problém s připojením k síti pro odesílání dat, který vyžaduje vyřešení. Zkontrolujte své DNS, směrování a firewall nebo ACL pro vaši síť.
  • Další důvody pro výstrahu jsou, že proces CFS se může opakovaně restartovat, pokud narazí na neopravitelnou chybu, proces CFS selže při provádění úlohy závislé na souborovém systému nebo procesu zookeeper nebo pokud je zabit kvůli nedostatku paměti ( OOM) problémy.
    • Ověřte, zda je v clusteru spuštěna služba CFS:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Zkontrolujte, zda služba CFS nedávno nespadla. V níže uvedeném příkazu proces CFS běží 2 dny, 6 hodin, 2 minuty a 33 sekund.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Zkontrolujte poslední FATAL na cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Restartujte službu cluster_health, abyste se pokusili stabilizovat proces CFS:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Monitorujte stabilitu procesu CFS opětovným spuštěním kontroly NCC.

Související články

ID dokumentu:HT516498
Datum původního zveřejnění:05/17/2024
Datum poslední úpravy:05/30/2024