NCC Sağlık Kontrolü: cfs_fatal_check
NCC Sağlık Kontrolü: cfs_fatal_check
NCC Sağlık Kontrolü: cfs_fatal_check
Tanım
NCC sağlık kontrolü cfs_fatal_check, CFS (Collector Framework Service) sürecinin stabil olup olmadığını belirlemek için yapılan bir kontroldür. CFS süreci, Cluster_health hizmeti altında bulunur ve Pulse verilerini Insights'a gönderir. Kontrol, CFS işleminin son 2 saat içinde en az 4 kez yeniden başlatılması durumunda tetiklenecektir. CFS süreci stabil hale gelene kadar uzaktan destek/nabız Insights verilerinin ve proaktif desteğin gönderilmesi gecikebilir.
Bu kontrolü çalıştırmadan önce NCC'yi en son sürüme yükseltin. Bu kontrol NCC 4.6.1'de tanıtıldı.
NCC Kontrolünü Çalıştırma
Bu kontrolü, NCC Sağlık Kontrollerinin tamamının bir parçası olarak çalıştırabilirsiniz.
nutanix@cvm$ ncc health_checks run_all
Veya bu kontrolü ayrı olarak çalıştırabilirsiniz.
nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check
Kontrolleri Prism web konsolunun Sağlık sayfasından da çalıştırabilirsiniz. Eylemler > Denetimleri Çalıştır'ı seçin. Tüm kontroller'i seçin ve Çalıştır'a tıklayın.
Bu kontrolün her 7200 saniyede bir çalışması planlanmıştır.
Bu kontrol , kararlı durum uyarısında olmayan CFS işlemini oluşturacaktır.
Örnek Çıktılar
Durum için: GEÇTİ
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Durum İçin: Uyarı
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Çıkış mesajı
|
140005 |
---|---|
|
Bu, CFS sürecinin kararlı olup olmadığını belirlemek için yapılan bir kontroldür. CFS süreci, Cluster_health hizmeti altında bulunur ve Pulse verilerini Insights'a gönderir. Kontrol, CFS işleminin son 2 saat içinde en az 4 kez yeniden başlatılması durumunda tetiklenecektir. |
|
CFS işlemi, kurtarılamayan bir hatayla karşılaşırsa, CFS işlemi dosya sistemi veya hayvanat koruyucu işlemine bağlı bir görevi gerçekleştiremezse veya Bellek Yetersiz (OOM) katili tarafından öldürülürse tekrar tekrar yeniden başlatılabilir. |
|
CFS işlemi, Denetleyici VM'deki Cluster_health hizmetinin altında bulunur. Etkilenen düğümdeki Cluster_health hizmetinin çalıştığını doğrulayın. Kilitlenmenin nedeni hakkında daha fazla ayrıntı için cfs.out ve Cluster_health hizmet günlüklerine bakın. |
|
İçgörü verileri ve proaktif destek, CFS süreci istikrara kavuşuncaya kadar ertelenebilir. |
Çözüm
Pulse, Nutanix çözümleri için proaktif, bağlama duyarlı destek sunmak amacıyla Nutanix Destek'e teşhis sistemi verileri sağlıyor. Nutanix, müşterilerinin darbeyi etkinleştirmesini öneriyor. Daha fazla ayrıntı için Nabız Sağlığı İzleme bölümüne bakın.
- Kümeniz 4.6.3.1'den daha eski bir NCC sürümünü çalıştırıyorsa, Yaşam Döngüsü Yöneticisini (LCM) kullanarak NCC'yi en son sürüme yükseltin.
- Prism Web Konsolu'ndaki "CFS işlemi kararlı bir durumda değil" uyarısını çözün.
- Yukarıda belirtildiği gibi NCC kontrolünü yeniden çalıştırın.
- Hala NCC kontrolü hatası görüyorsanız Nutanix Pulse Insights sunucularına bağlantıyı doğrulamak için aşağıdaki NCC kontrolünü çalıştırın.
nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
- Yukarıdaki kontrol başarısız olursa, erişilemezliği gidermek için KB-5490'daki talimatları izleyin. Çözüm gerektiren bir yukarı akış ağ bağlantısı sorunu olabilir. Ağınız için DNS'nizi, yönlendirmenizi ve güvenlik duvarınızı veya ACL'lerinizi inceleyin.
- Uyarının diğer nedenleri, CFS işleminin kurtarılamayan bir hatayla karşılaşması durumunda tekrar tekrar yeniden başlaması, CFS işleminin dosya sistemi veya hayvanat koruyucu işlemine bağlı bir görevi gerçekleştirememesi veya yetersiz bellek nedeniyle öldürülmesidir ( OOM) sorunları.
- CFS hizmetinin kümede çalıştığını doğrulayın:
nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- CFS hizmetinin yakın zamanda çöküp çökmediğini kontrol edin. Aşağıdaki komutta CFS işlemi 2 gün 6 saat 2 dakika 33 saniye boyunca çalışmaktadır.
nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Cfs.out'ta güncel FATAL olup olmadığını kontrol edin.
nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z 13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
- CFS sürecini stabilize etmeye çalışmak için Cluster_health hizmetini yeniden başlatın:
nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
- NCC kontrolünü yeniden çalıştırarak CFS sürecinin kararlılığını izleyin.
İlgili Makaleler
- Nutanix Portalındaki orijinal makale: Nutanix KB Makalesi : 13150
- Nutanix açılış sayfası