Kontrola stanu NCC: status_usług klastra

Ten artykuł został przetłumaczony maszynowo. Aby wyświetlić oryginalną wersję anglojęzyczną, kliknij tutaj.

Opis

Kontrola stanu NCC Cluster_services_status sprawdza, czy usługi kontrolera VM (CVM) zostały niedawno ponownie uruchomione w klastrze.

Kliknij tutaj, aby wyświetlić sprawdzone usługi

Przed wersją NCC-3.10.1

Ta kontrola jest wykonywana co 4 godziny i sprawdza dzienniki FATAL wygenerowane w ciągu ostatnich 24 godzin.

Chociaż ta kontrola NCC sprawdza bieżący stan usługi i poprzednie awarie, ta kontrola kończy się statusem FAIL tylko wtedy, gdy jedna lub więcej usług uległo wielokrotnej awarii i wygenerowało dziennik FATAL w ciągu ostatnich 24 godzin (5 razy na jednym kontrolerze VM lub 10 razy w klastrze).

Opublikuj w NCC-3.10.1

Ta kontrola jest wykonywana co 10 minut i sprawdza dzienniki FATAL wygenerowane w ciągu ostatnich 24 godzin.

Kontrola kończy się niepowodzeniem w dwóch następujących przypadkach:

Usługa FATAL 10 razy w klastrze w ciągu jednego dnia w przypadku klastrów mających więcej niż 10 węzłów (LUB) Liczba błędów FATAL w jednym dniu jest większa lub równa liczbie węzłów w klastrze w przypadku klastrów mających do 10 węzły.
Usługa FATAL 5 razy w jednym CVM, w ciągu jednego dnia.

Pojedynczy węzeł w klastrze zgłasza status FAIL podczas sprawdzania statusu_usług klastra w imieniu wszystkich innych CVM w klastrze. Podczas sprawdzania dzienników FATAL należy sprawdzić wszystkie CVM, korzystając z listy usług, których dotyczy problem, zawartej w komunikacie o stanie FAIL.

Jeśli ostatnio wykonano czynności konserwacyjne w klastrze, status FAIL tej kontroli wskazuje, że usługi są niestabilne, co może potencjalnie wpłynąć na wydajność lub łatwość serwisowania klastra.

Od wersji NCC 3.5.1 ta kontrola dotyczy maszyn wirtualnych Prism Central w skalowalnym klastrze komputerów PC.

Uruchamianie kontroli NCC

Uruchom tę kontrolę w ramach pełnej kontroli stanu NCC.

 nutanix@cvm$ ncc health_checks run_all

Możesz też przeprowadzić tę kontrolę indywidualnie.

 nutanix@cvm$ ncc health_checks system_checks status_usług klastra

Możesz także przeprowadzić kontrole ze strony Zdrowie konsoli internetowej Prism: wybierz Działania > Uruchom kontrole . Wybierz Wszystkie kontrole i kliknij Uruchom .

Domyślnie to sprawdzanie jest zaplanowane co 10 minut.
Ta kontrola wygeneruje alert po 1 niepowodzeniu.

Przykładowe wyjście

Dla statusu: PASS

 Uruchamianie /health_checks/system_checks/cluster_services_status na wszystkich węzłach [ PASS ]
-------------------------------------------------- ------------------+
+---------------+
| stan | Hrabia |
+---------------+
| Przełęcz | 1 |
| Razem | 1 |
+---------------+
Dane wyjściowe wtyczki zapisane w /home/nutanix/data/logs/ncc-output-latest.log

Dla stanu: NIEPOwodzenie

 Szczegółowe informacje o statusie_usług klastra:
 Węzeł xxxx:
 BŁĄD: Rdzeń komponentów zrzucony w ciągu ostatnich 24 godzin: ['cerebro', 'kurator']
 Szczegółowe informacje na temat statusu_usług klastra można znaleźć w artykule KB 3378 (http://portal.nutanix.com/kb/3378) lub sprawdź ponownie za pomocą: ncc health_checks system_checks klaster_services_status

Komunikat wyjściowy

Sprawdź dowód	3034
Opis	Sprawdź, czy usługi zostały niedawno ponownie uruchomione w klastrze.
Przyczyny niepowodzeń	Ten alert wskazuje, że co najmniej jedna usługa w klastrze została uruchomiona ponownie.
Postanowienia	Jeśli ten alert pojawia się raz lub rzadko, nie jest konieczne żadne działanie. Jeśli zdarza się to często, skontaktuj się z pomocą techniczną Nutanix.
Uderzenie	Wydajność klastra może ulec znacznemu pogorszeniu. W przypadku wielu usług o tym samym stanie klaster może nie być w stanie obsłużyć żądań we/wy.
Identyfikator alertu	A3034
Alert inteligentny tytuł	Usługa klastrowania często uruchamia się ponownie
Tytuł alertu	Usługi Cluster Service często uruchamiają się ponownie
Wiadomość alarmowa	Na wszystkich kontrolerach maszyn wirtualnych przeprowadzono wiele ponownych uruchomień usług. Ostatnia awaria tych usług wystąpiła odpowiednio w znacznikach czasu.

Rozwiązanie

Jeśli sprawdzenie stanu_usług klastra zwróci stan FAIL, wykonaj następujące czynności:

Sprawdź listę zrzutów rdzenia wygenerowanych na wszystkich maszynach wirtualnych kontrolera.:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Uruchom logbay z dowolnej maszyny wirtualnej kontrolera, aby zebrać pliki dziennika z ostatnich 24 godzin. (Aby uzyskać więcej informacji na temat logbay , zobacz Nutanix KB 6691. )
```
 nutanix@cvm$ logbay zebrać --aggregate=true --duration=-24h
```
Spowoduje to wygenerowanie pliku zip w katalogu /home/nutanix/data/logbay/bundles/ .
Uwaga: zagregowany pakiet dzienników może okazać się zbyt duży w przypadku większych klastrów, aby umożliwić gromadzenie dzienników przez całą dobę. W takim przypadku użyj logbay bez opcji --aggregate i prześlij pakiety logów z każdego CVM do zgłoszenia do pomocy technicznej.

Sprawdź poniższe i poszukaj plików z rozszerzeniem *.stack_trace.txt.gz , które muszą znajdować się w CVM, który wygenerował zrzuty pamięci.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Utwórz nową sprawę w portalu pomocy technicznej Nutanix i dołącz dane wyjściowe powyższych poleceń oraz pakiet logbay do sprawy pomocy technicznej.

Dodatkowe informacje

Nutanix KB 3378 - Oryginalny dokument w portalu Nutanix
Strona docelowa Nutanix
Plan wsparcia Lenovo ISG — urządzenie ThinkAgile HX i seria Lenovo Converged HX

Identyfikatof dokumentu :HT516511

Data pierwszej publikacji:05/21/2024

Data ostatniej modyfikacji:05/30/2024