Comprobación de estado de NCC: cfs_fatal_check
Comprobación de estado de NCC: cfs_fatal_check
Comprobación de estado de NCC: cfs_fatal_check
Descripción
La verificación de estado de NCC cfs_fatal_check es una verificación para determinar si el proceso CFS (Collector Framework Service) es estable. El proceso CFS reside en el servicio cluster_health y envía datos de Pulse a Insights. La verificación se activará si el proceso CFS se ha reiniciado al menos 4 veces en las últimas 2 horas. Hasta que el proceso CFS se haya estabilizado, es posible que se retrase el envío de datos de soporte remoto/Pulse Insights y soporte proactivo.
Antes de ejecutar esta verificación, actualice NCC a la última versión. Esta verificación se introdujo en NCC 4.6.1.
Ejecutando la verificación NCC
Puede ejecutar esta verificación como parte de las verificaciones de estado completas de NCC.
nutanix@cvm$ ncc health_checks run_all
O puede ejecutar esta verificación por separado.
nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check
También puede ejecutar las comprobaciones desde la página de estado de la consola web de Prism. Seleccione Acciones > Ejecutar comprobaciones . Seleccione Todas las comprobaciones y haga clic en Ejecutar .
Esta verificación está programada para ejecutarse cada 7200 segundos.
Esta verificación generará el proceso CFS que no se encuentra en una alerta de estado estable .
Resultados de muestra
Para estado: PASA
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Para estado: Advertencia
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Mensajes de salida
|
140005 |
---|---|
|
Esta es una verificación para determinar si el proceso CFS es estable. El proceso CFS reside en el servicio cluster_health y envía datos de Pulse a Insights. La verificación se activará si el proceso CFS se ha reiniciado al menos 4 veces en las últimas 2 horas. |
|
El proceso CFS podría reiniciarse repetidamente si encuentra un error irrecuperable, o si el proceso CFS no puede realizar una tarea que depende del sistema de archivos o del proceso del cuidador del zoológico, o si el asesino sin memoria (OOM) lo elimina. |
|
El proceso CFS se encuentra bajo el servicio cluster_health en la máquina virtual del controlador. Verifique que el servicio cluster_health en el nodo afectado se esté ejecutando. Consulte los registros de los servicios cfs.out y cluster_health para obtener más detalles sobre la causa del bloqueo. |
|
Los datos informativos y el apoyo proactivo pueden retrasarse hasta que el proceso del CSA se haya estabilizado. |
Solución
Pulse proporciona datos del sistema de diagnóstico al soporte de Nutanix para brindar soporte proactivo y contextual para las soluciones de Nutanix. Nutanix recomienda que los clientes habiliten el pulso. Consulte Monitoreo del estado del pulso para obtener más detalles.
- Si su clúster ejecuta una versión de NCC anterior a 4.6.3.1, actualice NCC a la última versión utilizando Life Cycle Manager (LCM).
- Resuelva la alerta "El proceso CFS no está en un estado estable" desde Prism Web Console.
- Vuelva a ejecutar la verificación del NCC como se indicó anteriormente.
- Si aún ve el error de verificación de NCC, ejecute la siguiente verificación de NCC para verificar la conectividad con los servidores Nutanix Pulse Insights.
nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
- Si la verificación anterior falla, siga las instrucciones de KB-5490 para resolver la inaccesibilidad. Es posible que haya un problema de conectividad de red ascendente que requiera solución. Revise su DNS, enrutamiento y firewall o ACL para su red.
- Otras razones para la alerta son que el proceso CFS podría reiniciarse repetidamente si encuentra un error irrecuperable, el proceso CFS no puede realizar una tarea que depende del sistema de archivos o del proceso del cuidador del zoológico, o si se cancela debido a falta de memoria ( OOM) problemas.
- Verifique que el servicio CFS se esté ejecutando en el clúster:
nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Compruebe si el servicio CFS ha fallado recientemente. En el siguiente comando, el proceso CFS se ejecuta durante 2 días, 6 horas, 2 minutos y 33 segundos.
nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Busque FATAL reciente en cfs.out.
nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z 13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
- Reinicie el servicio cluster_health para intentar estabilizar el proceso CFS:
nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
- Supervise la estabilidad del proceso CFS volviendo a ejecutar la verificación de NCC.
Artículos relacionados
- Artículo original en Nutanix Portal: Artículo Nutanix KB : 13150
- Página de inicio de Nutanix