Verificação de integridade do NCC: cfs_fatal_check

Verificação de integridade do NCC: cfs_fatal_check

Verificação de integridade do NCC: cfs_fatal_check

Este é um artigo traduzido automaticamente, por favor clique aqui para ver a versão original em inglês.

Descrição

A verificação de integridade do NCC cfs_fatal_check é uma verificação para determinar se o processo CFS (Collector Framework Service) está estável. O processo CFS reside no serviço cluster_health e envia dados do Pulse para o Insights. A verificação será acionada se o processo CFS tiver sido reiniciado pelo menos 4 vezes nas últimas 2 horas. Até que o processo CFS se estabilize, o envio de dados de suporte remoto/pulso Insights e suporte proativo pode ser atrasado.

Antes de executar esta verificação, atualize o NCC para a versão mais recente. Esta verificação foi introduzida no NCC 4.6.1.

Executando a verificação NCC

Você pode executar essa verificação como parte das verificações de integridade completas do NCC.

 nutanix@cvm$ ncc health_checks run_all

Ou você pode executar essa verificação separadamente.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

Você também pode executar as verificações na página Health do console da web Prism. Selecione Ações > Executar verificações . Selecione Todas as verificações e clique em Executar .

Essa verificação está programada para ser executada a cada 7.200 segundos.
Essa verificação gerará o alerta do processo CFS que não está em estado estável .

Exemplos de resultados

Para status: PASSAR

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: aviso

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Mensagens de saída

Verifique a identificação
140005
Descrição
Esta é uma verificação para determinar se o processo CFS está estável. O processo CFS reside no serviço cluster_health e envia dados do Pulse para o Insights. A verificação será acionada se o processo CFS tiver sido reiniciado pelo menos 4 vezes nas últimas 2 horas.
Causas de falha
O processo CFS pode reiniciar repetidamente se ocorrer um erro irrecuperável, ou se o processo CFS falhar ao executar uma tarefa dependente do sistema de arquivos ou do processo zookeeper, ou se for eliminado pelo assassino Out Of Memory (OOM).
Resoluções
O processo CFS fica no serviço cluster_health na VM do controlador. Verifique se o serviço cluster_health no nó afetado está em execução. Verifique os logs de serviço cfs.out e cluster_health para obter mais detalhes sobre a causa da falha.
Impacto
Os dados de insights e o suporte proativo podem ser adiados até que o processo CFS se estabilize.

Solução

O Pulse fornece dados de diagnóstico do sistema ao suporte da Nutanix para fornecer suporte proativo e com reconhecimento de contexto para soluções da Nutanix. A Nutanix recomenda que os clientes habilitem o pulso. Consulte Monitoramento da integridade do pulso para obter mais detalhes.

  • Se o seu cluster executar uma versão do NCC anterior a 4.6.3.1, atualize o NCC para a versão mais recente usando o Life Cycle Manager (LCM).
  • Resolva o alerta "O processo CFS não está em estado estável" no Prism Web Console.
  • Execute novamente a verificação do NCC conforme as instruções acima.
    • Se você ainda vir a falha na verificação do NCC, execute a seguinte verificação do NCC para verificar a conectividade com os servidores Nutanix Pulse Insights.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Se a verificação acima falhar, siga as instruções da KB-5490 para resolver a inacessibilidade. Pode haver um problema de conectividade de rede upstream que requer resolução. Revise o DNS, o roteamento e o firewall ou ACLs da sua rede.
  • Outras razões para o alerta são que o processo CFS pode reiniciar repetidamente se encontrar um erro irrecuperável, o processo CFS falhar ao executar uma tarefa dependente do sistema de arquivos ou do processo zookeeper ou se for encerrado devido a falta de memória ( OOM).
    • Verifique se o serviço CFS está em execução no cluster:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Verifique se o serviço CFS travou recentemente. No comando abaixo, o processo CFS é executado durante 2 dias, 6 horas, 2 minutos e 33 segundos.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Verifique se há FATAL recente em cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Reinicie o serviço cluster_health para tentar estabilizar o processo CFS:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Monitore a estabilidade do processo CFS executando novamente a verificação NCC.

Artigos relacionados

ID do documento:HT516498
Data de publicação original:05/17/2024
Data da última modificação:05/30/2024