Kontrola stanu NCC: cfs_fatal_check
Kontrola stanu NCC: cfs_fatal_check
Kontrola stanu NCC: cfs_fatal_check
Opis
Kontrola stanu NCC cfs_fatal_check służy do sprawdzenia, czy proces CFS (Collector Framework Service) jest stabilny. Proces CFS znajduje się w usłudze klastra_health i wysyła dane Pulse do aplikacji Insights. Kontrola zostanie uruchomiona, jeśli proces CFS został uruchomiony ponownie co najmniej 4 razy w ciągu ostatnich 2 godzin. Do czasu ustabilizowania się procesu CFS wysyłanie danych dotyczących zdalnego wsparcia/pulse Insights i proaktywnego wsparcia może być opóźnione.
Przed uruchomieniem tej kontroli zaktualizuj NCC do najnowszej wersji. Kontrola ta została wprowadzona w NCC 4.6.1.
Uruchamianie kontroli NCC
Możesz przeprowadzić tę kontrolę w ramach pełnej kontroli stanu NCC.
nutanix@cvm$ ncc health_checks run_all
Możesz też uruchomić tę kontrolę osobno.
nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check
Możesz także przeprowadzić testy na stronie Zdrowie konsoli internetowej Prism. Wybierz opcję Działania > Uruchom kontrole . Wybierz Wszystkie kontrole i kliknij Uruchom .
To sprawdzenie jest zaplanowane co 7200 sekund.
To sprawdzenie wygeneruje alert stanu stabilnego procesu CFS .
Przykładowe wyjścia
Dla statusu: PASS
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Dla stanu: Ostrzeżenie
Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
Komunikat wyjściowy
|
140005 |
---|---|
|
Jest to sprawdzenie mające na celu ustalenie, czy proces CFS jest stabilny. Proces CFS znajduje się w usłudze klastra_health i wysyła dane Pulse do aplikacji Insights. Kontrola zostanie uruchomiona, jeśli proces CFS został uruchomiony ponownie co najmniej 4 razy w ciągu ostatnich 2 godzin. |
|
Proces CFS może wielokrotnie uruchamiać się ponownie, jeśli napotka nieodwracalny błąd, proces CFS nie wykona zadania zależnego od systemu plików lub procesu zookeepera, lub jeśli zostanie zabity przez zabójcę Out Of Memory (OOM). |
|
Proces CFS znajduje się w usłudze klastra_health na maszynie wirtualnej kontrolera. Sprawdź, czy usługa Cluster_Health w węźle, którego dotyczy problem, jest uruchomiona. Sprawdź dzienniki usług cfs.out i klaster_health, aby uzyskać więcej szczegółów na temat przyczyny awarii. |
|
Dane szczegółowe i proaktywne wsparcie mogą zostać opóźnione do czasu ustabilizowania się procesu CFS. |
Rozwiązanie
Pulse dostarcza dane systemu diagnostycznego do działu wsparcia Nutanix, aby zapewnić proaktywne, kontekstowe wsparcie dla rozwiązań Nutanix. Nutanix zaleca, aby klienci włączyli funkcję Pulse. Więcej szczegółów można znaleźć w części Monitorowanie stanu tętna .
- Jeśli w klastrze działa wersja NCC starsza niż 4.6.3.1, zaktualizuj NCC do najnowszej wersji za pomocą Menedżera cyklu życia (LCM).
- Rozwiąż alert „Proces CFS nie jest w stabilnym stanie” z konsoli internetowej Prism.
- Przeprowadź ponownie kontrolę NCC zgodnie z instrukcją powyżej.
- Jeśli nadal widzisz błąd sprawdzania NCC, uruchom następujący test NCC, aby sprawdzić łączność z serwerami Nutanix Pulse Insights.
nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
- Jeśli powyższa kontrola zakończy się niepowodzeniem, postępuj zgodnie z instrukcjami z KB-5490, aby rozwiązać problem nieosiągalności. Może występować problem z łącznością sieciową nadrzędną, który wymaga rozwiązania. Przejrzyj DNS, routing i zaporę sieciową lub listy ACL dla swojej sieci.
- Inne przyczyny alertu to fakt, że proces CFS może wielokrotnie uruchamiać się ponownie, jeśli napotka nieodwracalny błąd, proces CFS nie wykona zadania zależnego od systemu plików lub procesu zookeeper, lub jeśli zostanie zabity z powodu braku pamięci ( OOM) problemy.
- Sprawdź, czy usługa CFS jest uruchomiona w klastrze:
nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Sprawdź, czy usługa CFS nie uległa ostatnio awarii. W poniższym poleceniu proces CFS działa przez 2 dni, 6 godzin, 2 minuty i 33 sekundy.
nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
- Sprawdź najnowsze pliki FATAL w pliku cfs.out.
nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z 13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
- Uruchom ponownie usługę klastra_health, aby spróbować ustabilizować proces CFS:
nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
- Monitoruj stabilność procesu CFS, ponownie uruchamiając kontrolę NCC.
Powiązane artykuły
- Oryginalny artykuł w portalu Nutanix: Nutanix KB Artykuł : 13150
- Strona docelowa Nutanix