Nota: questo sito Web include un sistema di accessibilità. Premi Control-F11 per adattare il sito web ai non vedenti che utilizzano uno screen reader; Premi Control-F10 per aprire un menu di accessibilità.

Controllo dello stato dell'NCC: cfs_fatal_check

Controllo dello stato dell'NCC: cfs_fatal_check

Controllo dello stato dell'NCC: cfs_fatal_check

Questo è un articolo tradotto automaticamente, fai clic qui per visualizzare la versione originale in inglese.

Descrizione

Il controllo dello stato NCC cfs_fatal_check è un controllo per determinare se il processo CFS (Collector Framework Service) è stabile. Il processo CFS risiede nel servizio cluster_health e invia i dati Pulse a Insights. Il controllo verrà attivato se il processo CFS è stato riavviato almeno 4 volte nelle ultime 2 ore. Fino a quando il processo CFS non si sarà stabilizzato, l'invio dei dati di supporto remoto/pulse Insights e il supporto proattivo potrebbero essere ritardati.

Prima di eseguire questo controllo, aggiorna NCC alla versione più recente. Questo controllo è stato introdotto nel NCC 4.6.1.

Esecuzione del controllo NCC

Puoi eseguire questo controllo come parte dei controlli sanitari NCC completi.

 nutanix@cvm$ ncc health_checks run_all

Oppure puoi eseguire questo controllo separatamente.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

È inoltre possibile eseguire i controlli dalla pagina Salute della console web Prism. Seleziona Azioni > Esegui controlli . Selezionare Tutti i controlli e fare clic su Esegui .

L'esecuzione di questo controllo è pianificata ogni 7200 secondi.
Questo controllo genererà il processo CFS che non è in uno stato di avviso stabile .

Uscite di esempio

Per lo stato: PASS

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Per lo stato: avviso

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Messaggistica in uscita

Controlla l'identità
140005
Descrizione
Questo è un controllo per determinare se il processo CFS è stabile. Il processo CFS risiede nel servizio cluster_health e invia i dati Pulse a Insights. Il controllo verrà attivato se il processo CFS è stato riavviato almeno 4 volte nelle ultime 2 ore.
Cause di fallimento
Il processo CFS potrebbe riavviarsi ripetutamente se si verifica un errore irreversibile, o se il processo CFS non riesce a eseguire un'attività dipendente dal file system o dal processo zookeeper, o se viene ucciso dal killer Out Of Memory (OOM).
Risoluzioni
Il processo CFS si trova nel servizio cluster_health sulla VM controller. Verificare che il servizio cluster_health sul nodo interessato sia in esecuzione. Controlla i log dei servizi cfs.out e cluster_health per ulteriori dettagli sulla causa dell'arresto anomalo.
Impatto
I dati approfonditi e il supporto proattivo possono essere ritardati finché il processo CFS non si sarà stabilizzato.

Soluzione

Pulse fornisce i dati del sistema diagnostico al supporto Nutanix per fornire supporto proattivo e sensibile al contesto per le soluzioni Nutanix. Nutanix consiglia ai clienti di abilitare Pulse. Fare riferimento a Monitoraggio dello stato del polso per maggiori dettagli.

  • Se il tuo cluster esegue una versione NCC precedente alla 4.6.3.1, aggiorna NCC alla versione più recente utilizzando Life Cycle Manager (LCM).
  • Risolvi l'avviso "Il processo CFS non è in uno stato stabile" dalla console Web Prism.
  • Eseguire nuovamente il controllo NCC come indicato sopra.
    • Se continui a riscontrare un errore nel controllo NCC, esegui il seguente controllo NCC per verificare la connettività ai server Nutanix Pulse Insights.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Se il controllo precedente fallisce, seguire le istruzioni di KB-5490 per risolvere l'irraggiungibilità. Potrebbe esserci un problema di connettività di rete upstream che richiede una risoluzione. Controlla il DNS, il routing e il firewall o gli ACL per la tua rete.
  • Altri motivi per l'avviso sono che il processo CFS potrebbe riavviarsi ripetutamente se si verifica un errore irreversibile, il processo CFS non riesce a eseguire un'attività dipendente dal file system o dal processo zookeeper o se viene interrotto a causa di memoria insufficiente ( OOM) problemi.
    • Verificare che il servizio CFS sia in esecuzione sul cluster:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Controlla se il servizio CFS si è bloccato di recente. Nel comando seguente, il processo CFS viene eseguito per 2 giorni, 6 ore, 2 minuti e 33 secondi.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Controlla la presenza di FATAL recenti nel cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Riavviare il servizio cluster_health per tentare di stabilizzare il processo CFS:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Monitorare la stabilità del processo CFS eseguendo nuovamente il controllo NCC.

articoli Correlati

ID Documento:HT516498
Data pubblicazione originale:05/17/2024
Data ultima modifica:05/30/2024