NCC-Integritätsprüfung: cluster_services_status

Dieser Beitrag wurde maschinell übersetzt. Für die englische Originalversion bitte hier klicken.

Beschreibung

Die NCC-Integritätsprüfung „cluster_services_status“ überprüft, ob die Controller-VM-Dienste (CVM) kürzlich im gesamten Cluster neu gestartet wurden.

Klicken Sie hier um die markierten Leistungen anzuzeigen

Vor NCC-3.10.1

Diese Prüfung wird alle 4 Stunden ausgeführt und sucht nach FATAL-Protokollen, die in den letzten 24 Stunden generiert wurden.

Obwohl diese NCC-Prüfung den aktuellen Dienststatus und die vorherigen Abstürze prüft, führt diese Prüfung nur dann zu einem FAIL-Status, wenn ein oder mehrere Dienste mehrmals abgestürzt sind und innerhalb der letzten 24 Stunden ein FATAL-Protokoll generiert haben (5-mal auf einer einzelnen Controller-VM oder 10-mal im gesamten Cluster).

Posten nach NCC-3.10.1

Diese Prüfung wird alle 10 Minuten ausgeführt und sucht nach FATAL-Protokollen, die in den letzten 24 Stunden generiert wurden.

In den folgenden zwei Fällen schlägt die Prüfung fehl:

Bei Clustern mit mehr als 10 Knoten tritt an einem Tag im gesamten Cluster 10 Mal ein FATAL-Fehler eines Dienstes auf. (ODER) Bei Clustern mit bis zu 10 Knoten ist die Anzahl der FATAL-Fehler an einem Tag größer oder gleich der Anzahl der Knoten im Cluster.
Bei einem Dienst kommt es in einem einzigen CVM an einem Tag fünfmal zu einem FATAL.

Ein einzelner Knoten im Cluster meldet im Namen aller anderen CVMs im Cluster einen FAIL-Status der cluster_services_status- Prüfung. Stellen Sie bei der Suche nach FATAL-Protokollen sicher, dass Sie alle CVMs prüfen. Verwenden Sie dabei die Liste der betroffenen Dienste aus der FAIL-Statusmeldung als Leitfaden.

Wenn am Cluster vor Kurzem Wartungsarbeiten durchgeführt wurden, weist der Status „FAIL“ dieser Prüfung darauf hin, dass die Dienste instabil sind, was möglicherweise die Leistung oder Wartungsfreundlichkeit des Clusters beeinträchtigen kann.

Ab NCC-Version 3.5.1 ist diese Prüfung auf Prism Central-VMs in einem Scaleout-PC-Cluster anwendbar.

Ausführen der NCC-Prüfung

Führen Sie diese Prüfung als Teil der vollständigen NCC-Integritätsprüfungen durch.

 nutanix@cvm$ ncc Gesundheitschecks laufen alle

Oder Sie führen diese Prüfung einzeln durch.

 nutanix@cvm$ ncc Gesundheitschecks Systemchecks Cluster-Services-Status

Sie können die Prüfungen auch von der Integritätsseite der Prism-Webkonsole aus ausführen: Wählen Sie Aktionen > Prüfungen ausführen . Wählen Sie Alle Prüfungen aus und klicken Sie auf Ausführen .

Diese Prüfung wird standardmäßig alle 10 Minuten ausgeführt.
Diese Prüfung generiert nach einem Fehler eine Warnung.

Beispielausgabe

Für Status: PASS

 Ausführen von /health_checks/system_checks/cluster_services_status auf allen Knoten [ PASS ]
------------------------------------------------------------------------+
+-----------------+
| Staat | Anzahl |
+-----------------+
| Bestehen | 1 |
| Gesamt | 1 |
+-----------------+
Plugin-Ausgabe geschrieben nach /home/nutanix/data/logs/ncc-output-latest.log

Für Status: FAIL

 Detaillierte Informationen für cluster_services_status:
Knoten xxxx:
FEHLGESCHLAGEN: Komponenten-Core-Dump in den letzten 24 Stunden: ['cerebro', 'curator']
Weitere Informationen zum cluster_services_status finden Sie in KB 3378 (http://portal.nutanix.com/kb/3378). Alternativ können Sie die Überprüfung erneut durchführen mit: ncc health_checks system_checks cluster_services_status

Ausgabenachrichten

Ausweis prüfen	3034
Beschreibung	Überprüfen Sie, ob die Dienste im gesamten Cluster kürzlich neu gestartet wurden.
Ursachen des Scheiterns	Diese Warnung zeigt an, dass ein oder mehrere Dienste im Cluster neu gestartet wurden.
Auflösungen	Wenn diese Warnung einmal oder selten auftritt, ist keine Aktion erforderlich. Wenn sie häufig auftritt, wenden Sie sich an den Nutanix-Support.
Auswirkungen	Die Clusterleistung kann erheblich beeinträchtigt werden. Bei mehreren Diensten mit demselben Zustand kann der Cluster möglicherweise keine E/A-Anforderungen mehr verarbeiten.
Warnmeldungs-ID	A3034
Intelligenter Titel für Warnmeldungen	Häufiger Neustart des Clusterdienstes
Alarmtitel	Cluster-Dienste werden häufig neu gestartet
Warnmeldung	Es gab mehrere Neustarts von Diensten auf allen Controller-VMs. Die letzten Abstürze dieser Dienste sind jeweils zu den angegebenen Zeitstempeln aufgetreten.

Lösung

Wenn die Prüfung cluster_services_status den Status FAIL zurückgibt, gehen Sie wie folgt vor:

Überprüfen Sie die Liste der auf allen Controller-VMs generierten Core Dumps:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Führen Sie logbay von einer beliebigen Controller-VM aus aus, um die Protokolldateien der letzten 24 Stunden zu sammeln. (Weitere Informationen zu logbay finden Sie im Nutanix KB 6691. )
```
 nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
```
Dadurch wird eine ZIP-Datei im Verzeichnis /home/nutanix/data/logbay/bundles/ generiert.
Hinweis: Das aggregierte Protokollpaket kann auf größeren Clustern für die 24-Stunden-Protokollerfassung zu groß werden. Verwenden Sie in einem solchen Fall logbay ohne die Option --aggregate und laden Sie Protokollpakete von jedem CVM in den Supportfall hoch.

Überprüfen Sie Folgendes und suchen Sie nach Dateien mit *.stack_trace.txt.gz , die sich auf dem CVM befinden müssen, das die Core Dumps generiert hat.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Erstellen Sie einen neuen Fall im Nutanix-Supportportal und hängen Sie die Ausgabe der obigen Befehle und das Logbay-Paket an den Supportfall an.

Weitere Informationen

Nutanix KB 3378 – Originaldokument im Nutanix Portal
Nutanix-Landingpage
Lenovo ISG-Supportplan – ThinkAgile HX Appliance und Lenovo Converged HX Series

Dokumenten-ID:HT516511

Ursprüngliches Veröffentlichungsdatum:05/21/2024

Datum der letzten Änderung:05/30/2024