NCC-gezondheidscontrole: cfs_fatal_check

NCC-gezondheidscontrole: cfs_fatal_check

NCC-gezondheidscontrole: cfs_fatal_check

Dit artikel is een machinevertaling. Klik hier om de originele Engelse versie te bekijken.

Beschrijving

De NCC-gezondheidscontrole cfs_fatal_check is een controle om te bepalen of het CFS-proces (Collector Framework Service) stabiel is. Het CFS-proces bevindt zich onder de cluster_health-service en verzendt Pulse-gegevens naar Insights. De controle wordt geactiveerd als het CVS-proces in de afgelopen 2 uur minimaal 4 keer opnieuw is opgestart. Totdat het CFS-proces is gestabiliseerd, kan het verzenden van ondersteuning op afstand/pulse Insights-gegevens en proactieve ondersteuning worden uitgesteld.

Voordat u deze controle uitvoert, moet u NCC upgraden naar de nieuwste versie. Deze controle is geïntroduceerd in NCC 4.6.1.

Het uitvoeren van de NCC-controle

U kunt deze controle uitvoeren als onderdeel van de volledige NCC Health Checks.

 nutanix@cvm$ ncc health_checks run_all

Of u kunt deze controle afzonderlijk uitvoeren.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

U kunt de controles ook uitvoeren vanaf de Prism-webconsole Gezondheidspagina. Selecteer Acties > Controles uitvoeren . Selecteer Alle controles en klik op Uitvoeren .

Deze controle wordt elke 7200 seconden uitgevoerd.
Deze controle genereert het CFS-proces dat zich niet in een stabiele waarschuwing bevindt.

Voorbeelduitvoer

Voor status: PASS

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Voor status: waarschuwing

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Uitvoerberichten

Controleer identiteitskaart
140005
Beschrijving
Dit is een controle om te bepalen of het CVS-proces stabiel is. Het CFS-proces bevindt zich onder de cluster_health-service en verzendt Pulse-gegevens naar Insights. De controle wordt geactiveerd als het CVS-proces in de afgelopen 2 uur minimaal 4 keer opnieuw is opgestart.
Oorzaken van falen
Het CFS-proces kan herhaaldelijk opnieuw opstarten als het een onherstelbare fout tegenkomt, of als het CFS-proces er niet in slaagt een taak uit te voeren die afhankelijk is van het bestandssysteem of het dierenverzorgerproces, of als het wordt beëindigd door een Out Of Memory (OOM)-killer.
Resoluties
Het CFS-proces bevindt zich onder de cluster_health-service op de controller-VM. Controleer of de cluster_health-service op het getroffen knooppunt actief is. Bekijk de servicelogboeken cfs.out en cluster_health voor meer informatie over de oorzaak van de crash.
Invloed
Inzichtgegevens en proactieve ondersteuning kunnen worden uitgesteld totdat het CVS-proces is gestabiliseerd.

Oplossing

Pulse levert diagnostische systeemgegevens aan Nutanix Support om proactieve, contextbewuste ondersteuning te bieden voor Nutanix-oplossingen. Nutanix raadt klanten aan pulse in te schakelen. Raadpleeg Pulse Health Monitoring voor meer details.

  • Als uw cluster een NCC-versie gebruikt die ouder is dan 4.6.3.1, upgrade dan NCC naar de nieuwste versie met behulp van Life Cycle Manager (LCM).
  • Los de waarschuwing "CFS-proces bevindt zich niet in een stabiele status" van de Prism Web Console op.
  • Voer de NCC-controle opnieuw uit zoals hierboven aangegeven.
    • Als de NCC-controle nog steeds mislukt, voer dan de volgende NCC-controle uit om de connectiviteit met Nutanix Pulse Insights-servers te verifiëren.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Als de bovenstaande controle mislukt, volgt u de instructies van KB-5490 om de onbereikbaarheid op te lossen. Er is mogelijk een probleem met de upstream-netwerkverbinding dat moet worden opgelost. Controleer uw DNS, routering en firewall of ACL's voor uw netwerk.
  • Andere redenen voor de waarschuwing zijn dat het CFS-proces herhaaldelijk opnieuw kan opstarten als het een onherstelbare fout tegenkomt, het CFS-proces er niet in slaagt een taak uit te voeren die afhankelijk is van het bestandssysteem of het zookeeper-proces, of als het wordt beëindigd vanwege onvoldoende geheugen ( OOM) problemen.
    • Controleer of de CFS-service op het cluster draait:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Controleer of de CFS-service onlangs is gecrasht. In de onderstaande opdracht duurt het CFS-proces 2 dagen, 6 uur, 2 minuten en 33 seconden.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Controleer op recente FATAL in cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Start de cluster_health-service opnieuw om te proberen het CFS-proces te stabiliseren:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Bewaak de stabiliteit van het CVS-proces door de NCC-controle opnieuw uit te voeren.

gerelateerde artikelen

Document-ID:HT516498
Oorspronkelijke publicatiedatum:05/17/2024
Laatste gewijzigde datum:05/30/2024