Kontrola stanu NCC: cfs_fatal_check

Kontrola stanu NCC: cfs_fatal_check

Kontrola stanu NCC: cfs_fatal_check

Ten artykuł został przetłumaczony maszynowo. Aby wyświetlić oryginalną wersję anglojęzyczną, kliknij tutaj.

Opis

Kontrola stanu NCC cfs_fatal_check służy do sprawdzenia, czy proces CFS (Collector Framework Service) jest stabilny. Proces CFS znajduje się w usłudze klastra_health i wysyła dane Pulse do aplikacji Insights. Kontrola zostanie uruchomiona, jeśli proces CFS został uruchomiony ponownie co najmniej 4 razy w ciągu ostatnich 2 godzin. Do czasu ustabilizowania się procesu CFS wysyłanie danych dotyczących zdalnego wsparcia/pulse Insights i proaktywnego wsparcia może być opóźnione.

Przed uruchomieniem tej kontroli zaktualizuj NCC do najnowszej wersji. Kontrola ta została wprowadzona w NCC 4.6.1.

Uruchamianie kontroli NCC

Możesz przeprowadzić tę kontrolę w ramach pełnej kontroli stanu NCC.

 nutanix@cvm$ ncc health_checks run_all

Możesz też uruchomić tę kontrolę osobno.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

Możesz także przeprowadzić testy na stronie Zdrowie konsoli internetowej Prism. Wybierz opcję Działania > Uruchom kontrole . Wybierz Wszystkie kontrole i kliknij Uruchom .

To sprawdzenie jest zaplanowane co 7200 sekund.
To sprawdzenie wygeneruje alert stanu stabilnego procesu CFS .

Przykładowe wyjścia

Dla statusu: PASS

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Dla stanu: Ostrzeżenie

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Komunikat wyjściowy

Sprawdź dowód
140005
Opis
Jest to sprawdzenie mające na celu ustalenie, czy proces CFS jest stabilny. Proces CFS znajduje się w usłudze klastra_health i wysyła dane Pulse do aplikacji Insights. Kontrola zostanie uruchomiona, jeśli proces CFS został uruchomiony ponownie co najmniej 4 razy w ciągu ostatnich 2 godzin.
Przyczyny niepowodzeń
Proces CFS może wielokrotnie uruchamiać się ponownie, jeśli napotka nieodwracalny błąd, proces CFS nie wykona zadania zależnego od systemu plików lub procesu zookeepera, lub jeśli zostanie zabity przez zabójcę Out Of Memory (OOM).
Postanowienia
Proces CFS znajduje się w usłudze klastra_health na maszynie wirtualnej kontrolera. Sprawdź, czy usługa Cluster_Health w węźle, którego dotyczy problem, jest uruchomiona. Sprawdź dzienniki usług cfs.out i klaster_health, aby uzyskać więcej szczegółów na temat przyczyny awarii.
Uderzenie
Dane szczegółowe i proaktywne wsparcie mogą zostać opóźnione do czasu ustabilizowania się procesu CFS.

Rozwiązanie

Pulse dostarcza dane systemu diagnostycznego do działu wsparcia Nutanix, aby zapewnić proaktywne, kontekstowe wsparcie dla rozwiązań Nutanix. Nutanix zaleca, aby klienci włączyli funkcję Pulse. Więcej szczegółów można znaleźć w części Monitorowanie stanu tętna .

  • Jeśli w klastrze działa wersja NCC starsza niż 4.6.3.1, zaktualizuj NCC do najnowszej wersji za pomocą Menedżera cyklu życia (LCM).
  • Rozwiąż alert „Proces CFS nie jest w stabilnym stanie” z konsoli internetowej Prism.
  • Przeprowadź ponownie kontrolę NCC zgodnie z instrukcją powyżej.
    • Jeśli nadal widzisz błąd sprawdzania NCC, uruchom następujący test NCC, aby sprawdzić łączność z serwerami Nutanix Pulse Insights.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Jeśli powyższa kontrola zakończy się niepowodzeniem, postępuj zgodnie z instrukcjami z KB-5490, aby rozwiązać problem nieosiągalności. Może występować problem z łącznością sieciową nadrzędną, który wymaga rozwiązania. Przejrzyj DNS, routing i zaporę sieciową lub listy ACL dla swojej sieci.
  • Inne przyczyny alertu to fakt, że proces CFS może wielokrotnie uruchamiać się ponownie, jeśli napotka nieodwracalny błąd, proces CFS nie wykona zadania zależnego od systemu plików lub procesu zookeeper, lub jeśli zostanie zabity z powodu braku pamięci ( OOM) problemy.
    • Sprawdź, czy usługa CFS jest uruchomiona w klastrze:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Sprawdź, czy usługa CFS nie uległa ostatnio awarii. W poniższym poleceniu proces CFS działa przez 2 dni, 6 godzin, 2 minuty i 33 sekundy.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Sprawdź najnowsze pliki FATAL w pliku cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Uruchom ponownie usługę klastra_health, aby spróbować ustabilizować proces CFS:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Monitoruj stabilność procesu CFS, ponownie uruchamiając kontrolę NCC.

Powiązane artykuły

Identyfikatof dokumentu :HT516498
Data pierwszej publikacji:05/17/2024
Data ostatniej modyfikacji:05/30/2024