Pemeriksaan Kesehatan NCC: cfs_fatal_check

Pemeriksaan Kesehatan NCC: cfs_fatal_check

Pemeriksaan Kesehatan NCC: cfs_fatal_check

Ini merupakan artikel terjemahan mesin, silakan klik disini untuk melihat versi asli Inggris.

Keterangan

Pemeriksaan kesehatan NCC cfs_fatal_check adalah pemeriksaan untuk menentukan apakah proses CFS (Collector Framework Service) stabil. Proses CFS berada di bawah layanan cluster_health dan mengirimkan data Pulse ke Insights. Pemeriksaan akan terpicu jika proses CFS telah dimulai ulang setidaknya 4 kali dalam 2 jam terakhir. Hingga proses CFS stabil, pengiriman data dukungan jarak jauh/pulse Insights dan dukungan proaktif mungkin tertunda.

Sebelum menjalankan pemeriksaan ini, tingkatkan NCC ke versi terbaru. Pemeriksaan ini diperkenalkan di NCC 4.6.1.

Menjalankan Pemeriksaan NCC

Anda dapat menjalankan pemeriksaan ini sebagai bagian dari Pemeriksaan Kesehatan NCC yang lengkap.

 nutanix@cvm$ ncc health_checks run_all

Atau Anda dapat menjalankan pemeriksaan ini secara terpisah.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

Anda juga dapat menjalankan pemeriksaan dari halaman Kesehatan konsol web Prism. Pilih Tindakan > Jalankan Pemeriksaan . Pilih Semua pemeriksaan dan klik Jalankan .

Pemeriksaan ini dijadwalkan dijalankan setiap 7200 detik.
Pemeriksaan ini akan menghasilkan proses CFS yang tidak dalam keadaan stabil .

Contoh Keluaran

Untuk Status: LULUS

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Untuk Status: Peringatan

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pesan keluaran

Periksa ID
140005
Keterangan
Ini adalah pemeriksaan untuk menentukan apakah proses CFS stabil. Proses CFS berada di bawah layanan cluster_health dan mengirimkan data Pulse ke Insights. Pemeriksaan akan terpicu jika proses CFS telah dimulai ulang setidaknya 4 kali dalam 2 jam terakhir.
Penyebab kegagalan
Proses CFS dapat dimulai ulang berulang kali jika terjadi kesalahan yang tidak dapat dipulihkan, atau proses CFS gagal melakukan tugas yang bergantung pada sistem file atau proses penjaga kebun binatang, atau jika dihentikan oleh pembunuh Kehabisan Memori (OOM).
Resolusi
Proses CFS berada di bawah layanan cluster_health pada VM Pengontrol. Verifikasi bahwa layanan cluster_health pada node yang terpengaruh sedang berjalan. Periksa log layanan cfs.out dan cluster_health untuk detail selengkapnya tentang penyebab kerusakan.
Dampak
Data wawasan dan dukungan proaktif dapat ditunda hingga proses CFS stabil.

Larutan

Pulse menyediakan data sistem diagnostik ke Dukungan Nutanix untuk memberikan dukungan proaktif dan sadar konteks untuk solusi Nutanix. Nutanix merekomendasikan pelanggan untuk mengaktifkan pulsa. Lihat Pemantauan Kesehatan Denyut Nadi untuk lebih jelasnya.

  • Jika klaster Anda menjalankan versi NCC yang lebih lama dari 4.6.3.1, Tingkatkan NCC ke versi terbaru menggunakan Life Cycle Manager (LCM).
  • Atasi peringatan "Proses CFS tidak dalam keadaan stabil" dari Konsol Web Prism.
  • Jalankan kembali pemeriksaan NCC seperti yang diinstruksikan di atas.
    • Jika Anda masih melihat kegagalan pemeriksaan NCC, jalankan pemeriksaan NCC berikut untuk memverifikasi konektivitas ke server Nutanix Pulse Insights.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Jika pemeriksaan di atas gagal, ikuti instruksi dari KB-5490 untuk mengatasi ketidakterjangkauan. Mungkin ada masalah konektivitas jaringan hulu yang memerlukan penyelesaian. Tinjau DNS, perutean, dan firewall atau ACL untuk jaringan Anda.
  • Alasan lain untuk peringatan ini adalah bahwa proses CFS mungkin berulang kali dimulai ulang jika terjadi kesalahan yang tidak dapat dipulihkan, proses CFS gagal melakukan tugas yang bergantung pada sistem file atau proses penjaga kebun binatang, atau jika proses tersebut dihentikan karena kehabisan memori ( OOM) masalah.
    • Verifikasi bahwa layanan CFS berjalan di klaster:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Periksa apakah layanan CFS baru saja mogok. Pada perintah di bawah ini, proses CFS berjalan selama 2 hari, 6 jam, 2 menit, dan 33 detik.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Periksa FATAL terbaru di cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Mulai ulang layanan cluster_health untuk mencoba menstabilkan proses CFS:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Pantau stabilitas proses CFS dengan menjalankan kembali pemeriksaan NCC.

Artikel Terkait

Dokumen ID:HT516498
Tanggal Penerbitan Asli:05/17/2024
Last Modified Date:05/30/2024