Kontrola stanu NCC: status_usług klastra
Kontrola stanu NCC: status_usług klastra
Kontrola stanu NCC: status_usług klastra
Opis
Kontrola stanu NCC Cluster_services_status sprawdza, czy usługi kontrolera VM (CVM) zostały niedawno ponownie uruchomione w klastrze.
Kliknij tutaj, aby wyświetlić sprawdzone usługi
Przed wersją NCC-3.10.1
Ta kontrola jest wykonywana co 4 godziny i sprawdza dzienniki FATAL wygenerowane w ciągu ostatnich 24 godzin.
Chociaż ta kontrola NCC sprawdza bieżący stan usługi i poprzednie awarie, ta kontrola kończy się statusem FAIL tylko wtedy, gdy jedna lub więcej usług uległo wielokrotnej awarii i wygenerowało dziennik FATAL w ciągu ostatnich 24 godzin (5 razy na jednym kontrolerze VM lub 10 razy w klastrze).
Opublikuj w NCC-3.10.1
Ta kontrola jest wykonywana co 10 minut i sprawdza dzienniki FATAL wygenerowane w ciągu ostatnich 24 godzin.
Kontrola kończy się niepowodzeniem w dwóch następujących przypadkach:
- Usługa FATAL 10 razy w klastrze w ciągu jednego dnia w przypadku klastrów mających więcej niż 10 węzłów (LUB) Liczba błędów FATAL w jednym dniu jest większa lub równa liczbie węzłów w klastrze w przypadku klastrów mających do 10 węzły.
- Usługa FATAL 5 razy w jednym CVM, w ciągu jednego dnia.
Pojedynczy węzeł w klastrze zgłasza status FAIL podczas sprawdzania statusu_usług klastra w imieniu wszystkich innych CVM w klastrze. Podczas sprawdzania dzienników FATAL należy sprawdzić wszystkie CVM, korzystając z listy usług, których dotyczy problem, zawartej w komunikacie o stanie FAIL.
Jeśli ostatnio wykonano czynności konserwacyjne w klastrze, status FAIL tej kontroli wskazuje, że usługi są niestabilne, co może potencjalnie wpłynąć na wydajność lub łatwość serwisowania klastra.
Od wersji NCC 3.5.1 ta kontrola dotyczy maszyn wirtualnych Prism Central w skalowalnym klastrze komputerów PC.
Uruchamianie kontroli NCC
Uruchom tę kontrolę w ramach pełnej kontroli stanu NCC.
nutanix@cvm$ ncc health_checks run_all
Możesz też przeprowadzić tę kontrolę indywidualnie.
nutanix@cvm$ ncc health_checks system_checks status_usług klastra
Możesz także przeprowadzić kontrole ze strony Zdrowie konsoli internetowej Prism: wybierz Działania > Uruchom kontrole . Wybierz Wszystkie kontrole i kliknij Uruchom .
Domyślnie to sprawdzanie jest zaplanowane co 10 minut.
Ta kontrola wygeneruje alert po 1 niepowodzeniu.
Przykładowe wyjście
Dla statusu: PASS
Uruchamianie /health_checks/system_checks/cluster_services_status na wszystkich węzłach [ PASS ]
-------------------------------------------------- ------------------+
+---------------+
| stan | Hrabia |
+---------------+
| Przełęcz | 1 |
| Razem | 1 |
+---------------+
Dane wyjściowe wtyczki zapisane w /home/nutanix/data/logs/ncc-output-latest.log
Dla stanu: NIEPOwodzenie
Szczegółowe informacje o statusie_usług klastra:
Węzeł xxxx:
BŁĄD: Rdzeń komponentów zrzucony w ciągu ostatnich 24 godzin: ['cerebro', 'kurator']
Szczegółowe informacje na temat statusu_usług klastra można znaleźć w artykule KB 3378 (http://portal.nutanix.com/kb/3378) lub sprawdź ponownie za pomocą: ncc health_checks system_checks klaster_services_status
Komunikat wyjściowy
Sprawdź dowód | 3034 |
Opis | Sprawdź, czy usługi zostały niedawno ponownie uruchomione w klastrze. |
Przyczyny niepowodzeń | Ten alert wskazuje, że co najmniej jedna usługa w klastrze została uruchomiona ponownie. |
Postanowienia | Jeśli ten alert pojawia się raz lub rzadko, nie jest konieczne żadne działanie. Jeśli zdarza się to często, skontaktuj się z pomocą techniczną Nutanix. |
Uderzenie | Wydajność klastra może ulec znacznemu pogorszeniu. W przypadku wielu usług o tym samym stanie klaster może nie być w stanie obsłużyć żądań we/wy. |
Identyfikator alertu | A3034 |
Alert inteligentny tytuł | Usługa klastrowania często uruchamia się ponownie |
Tytuł alertu | Usługi Cluster Service często uruchamiają się ponownie |
Wiadomość alarmowa | Na wszystkich kontrolerach maszyn wirtualnych przeprowadzono wiele ponownych uruchomień usług. Ostatnia awaria tych usług wystąpiła odpowiednio w znacznikach czasu. |
Rozwiązanie
Jeśli sprawdzenie stanu_usług klastra zwróci stan FAIL, wykonaj następujące czynności:
- Sprawdź listę zrzutów rdzenia wygenerowanych na wszystkich maszynach wirtualnych kontrolera.:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Uruchom logbay z dowolnej maszyny wirtualnej kontrolera, aby zebrać pliki dziennika z ostatnich 24 godzin. (Aby uzyskać więcej informacji na temat logbay , zobacz Nutanix KB 6691. )
nutanix@cvm$ logbay zebrać --aggregate=true --duration=-24h
Spowoduje to wygenerowanie pliku zip w katalogu /home/nutanix/data/logbay/bundles/ .
Uwaga: zagregowany pakiet dzienników może okazać się zbyt duży w przypadku większych klastrów, aby umożliwić gromadzenie dzienników przez całą dobę. W takim przypadku użyj logbay bez opcji --aggregate i prześlij pakiety logów z każdego CVM do zgłoszenia do pomocy technicznej.
- Sprawdź poniższe i poszukaj plików z rozszerzeniem *.stack_trace.txt.gz , które muszą znajdować się w CVM, który wygenerował zrzuty pamięci.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Utwórz nową sprawę w portalu pomocy technicznej Nutanix i dołącz dane wyjściowe powyższych poleceń oraz pakiet logbay do sprawy pomocy technicznej.
Dodatkowe informacje
- Nutanix KB 3378 - Oryginalny dokument w portalu Nutanix
- Strona docelowa Nutanix
- Plan wsparcia Lenovo ISG — urządzenie ThinkAgile HX i seria Lenovo Converged HX