NCC 健康檢查:cfs_fatal_check
NCC 健康檢查:cfs_fatal_check
NCC 健康檢查:cfs_fatal_check
描述
NCC 健康檢查cfs_fatal_check是確定 CFS(收集器框架服務)進程是否穩定的檢查。 CFS 進程駐留在 cluster_health 服務下,並將 Pulse 資料傳送至 Insights。如果 CFS 進程在過去 2 小時內重新啟動至少 4 次,則會觸發該檢查。在 CFS 流程穩定之前,發送遠端支援/脈衝洞察資料和主動支援可能會延遲。
在執行此檢查之前,請將 NCC 升級至最新版本。此檢查在 NCC 4.6.1 中引入。
運行 NCC 檢查
您可以將此檢查作為完整 NCC 運行狀況檢查的一部分來運行。
nutanix@cvm$ ncc health_checks run_all
或者您可以單獨執行此檢查。
nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check
您也可以從 Prism Web 控制台執行狀況頁面執行檢查。選擇操作>運行檢查。選擇所有檢查並點擊運行。
此檢查計劃每 7200 秒運行一次。
此檢查將產生未處於穩定狀態的 CFS 進程警報。
樣本輸出
狀態:透過
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態:警告
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
輸出訊息
|
140005 |
---|---|
|
這是確定 CFS 進程是否穩定的檢查。 CFS 進程駐留在 cluster_health 服務下,並將 Pulse 資料傳送至 Insights。如果 CFS 進程在過去 2 小時內重新啟動至少 4 次,則會觸發該檢查。 |
|
如果 CFS 進程遇到不可恢復的錯誤,或者 CFS 進程無法執行依賴檔案系統或 Zookeeper 進程的任務,或被記憶體不足 (OOM) 殺手終止,則 CFS 進程可能會重複重新啟動。 |
|
CFS 進程位於控制器 VM 上的 cluster_health 服務下。驗證受影響節點上的 cluster_health 服務是否正在執行。檢查 cfs.out 和 cluster_health 服務日誌,以了解有關崩潰原因的更多詳細資訊。 |
|
洞察資料和主動支援可能會延遲,直到 CFS 流程穩定下來。 |
解決方案
Pulse 向 Nutanix 支援提供診斷系統數據,為 Nutanix 解決方案提供主動、情境感知的支援。 Nutanix 建議客戶啟用脈衝。有關更多詳細信息,請參閱脈搏健康監測。
- 如果您的叢集運行的 NCC 版本早於 4.6.3.1,請使用生命週期管理器 (LCM) 將 NCC 升級到最新版本。
- 解決 Prism Web 控制台中的警報「CFS 進程未處於穩定狀態」。
- 按照上述說明重新執行 NCC 檢查。
- 如果您仍然看到 NCC 檢查失敗,請執行以下 NCC 檢查以驗證與 Nutanix Pulse Insights 伺服器的連線。
nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
- 如果上述檢查失敗,請依照KB-5490中的說明解決無法存取的問題。可能存在需要解決的上游網路連線問題。檢查您的網路的 DNS、路由和防火牆或 ACL。
- 發出該警報的其他原因是,如果 CFS 進程遇到不可恢復的錯誤、CFS 進程無法執行依賴檔案系統或 Zookeeper 進程的任務,或因記憶體不足而終止( OOM)問題。
- 驗證 CFS 服務是否正在叢集上執行:
nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- 檢查 CFS 服務最近是否崩潰。在下面的命令中,CFS 進程運行了 2 天 6 小時 2 分 33 秒。
nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- 檢查 cfs.out 中最近的 FATAL。
nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z 13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
- 重新啟動 cluster_health 服務以嘗試穩定 CFS 進程:
nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
- 透過重新執行 NCC 檢查來監視 CFS 進程的穩定性。
相關文章
- Nutanix 入口網站中的原始文章: Nutanix 知識庫文章:13150
- Nutanix 登陸頁面