NCC-Integritätsprüfung: cluster_services_status
NCC-Integritätsprüfung: cluster_services_status
NCC-Integritätsprüfung: cluster_services_status
Beschreibung
Die NCC-Integritätsprüfung „cluster_services_status“ überprüft, ob die Controller-VM-Dienste (CVM) kürzlich im gesamten Cluster neu gestartet wurden.
Klicken Sie hier um die markierten Leistungen anzuzeigen
Vor NCC-3.10.1
Diese Prüfung wird alle 4 Stunden ausgeführt und sucht nach FATAL-Protokollen, die in den letzten 24 Stunden generiert wurden.
Obwohl diese NCC-Prüfung den aktuellen Dienststatus und die vorherigen Abstürze prüft, führt diese Prüfung nur dann zu einem FAIL-Status, wenn ein oder mehrere Dienste mehrmals abgestürzt sind und innerhalb der letzten 24 Stunden ein FATAL-Protokoll generiert haben (5-mal auf einer einzelnen Controller-VM oder 10-mal im gesamten Cluster).
Posten nach NCC-3.10.1
Diese Prüfung wird alle 10 Minuten ausgeführt und sucht nach FATAL-Protokollen, die in den letzten 24 Stunden generiert wurden.
In den folgenden zwei Fällen schlägt die Prüfung fehl:
- Bei Clustern mit mehr als 10 Knoten tritt an einem Tag im gesamten Cluster 10 Mal ein FATAL-Fehler eines Dienstes auf. (ODER) Bei Clustern mit bis zu 10 Knoten ist die Anzahl der FATAL-Fehler an einem Tag größer oder gleich der Anzahl der Knoten im Cluster.
- Bei einem Dienst kommt es in einem einzigen CVM an einem Tag fünfmal zu einem FATAL.
Ein einzelner Knoten im Cluster meldet im Namen aller anderen CVMs im Cluster einen FAIL-Status der cluster_services_status- Prüfung. Stellen Sie bei der Suche nach FATAL-Protokollen sicher, dass Sie alle CVMs prüfen. Verwenden Sie dabei die Liste der betroffenen Dienste aus der FAIL-Statusmeldung als Leitfaden.
Wenn am Cluster vor Kurzem Wartungsarbeiten durchgeführt wurden, weist der Status „FAIL“ dieser Prüfung darauf hin, dass die Dienste instabil sind, was möglicherweise die Leistung oder Wartungsfreundlichkeit des Clusters beeinträchtigen kann.
Ab NCC-Version 3.5.1 ist diese Prüfung auf Prism Central-VMs in einem Scaleout-PC-Cluster anwendbar.
Ausführen der NCC-Prüfung
Führen Sie diese Prüfung als Teil der vollständigen NCC-Integritätsprüfungen durch.
nutanix@cvm$ ncc Gesundheitschecks laufen alle
Oder Sie führen diese Prüfung einzeln durch.
nutanix@cvm$ ncc Gesundheitschecks Systemchecks Cluster-Services-Status
Sie können die Prüfungen auch von der Integritätsseite der Prism-Webkonsole aus ausführen: Wählen Sie Aktionen > Prüfungen ausführen . Wählen Sie Alle Prüfungen aus und klicken Sie auf Ausführen .
Diese Prüfung wird standardmäßig alle 10 Minuten ausgeführt.
Diese Prüfung generiert nach einem Fehler eine Warnung.
Beispielausgabe
Für Status: PASS
Ausführen von /health_checks/system_checks/cluster_services_status auf allen Knoten [ PASS ]
------------------------------------------------------------------------+
+-----------------+
| Staat | Anzahl |
+-----------------+
| Bestehen | 1 |
| Gesamt | 1 |
+-----------------+
Plugin-Ausgabe geschrieben nach /home/nutanix/data/logs/ncc-output-latest.log
Für Status: FAIL
Detaillierte Informationen für cluster_services_status:
Knoten xxxx:
FEHLGESCHLAGEN: Komponenten-Core-Dump in den letzten 24 Stunden: ['cerebro', 'curator']
Weitere Informationen zum cluster_services_status finden Sie in KB 3378 (http://portal.nutanix.com/kb/3378). Alternativ können Sie die Überprüfung erneut durchführen mit: ncc health_checks system_checks cluster_services_status
Ausgabenachrichten
Ausweis prüfen | 3034 |
Beschreibung | Überprüfen Sie, ob die Dienste im gesamten Cluster kürzlich neu gestartet wurden. |
Ursachen des Scheiterns | Diese Warnung zeigt an, dass ein oder mehrere Dienste im Cluster neu gestartet wurden. |
Auflösungen | Wenn diese Warnung einmal oder selten auftritt, ist keine Aktion erforderlich. Wenn sie häufig auftritt, wenden Sie sich an den Nutanix-Support. |
Auswirkungen | Die Clusterleistung kann erheblich beeinträchtigt werden. Bei mehreren Diensten mit demselben Zustand kann der Cluster möglicherweise keine E/A-Anforderungen mehr verarbeiten. |
Warnmeldungs-ID | A3034 |
Intelligenter Titel für Warnmeldungen | Häufiger Neustart des Clusterdienstes |
Alarmtitel | Cluster-Dienste werden häufig neu gestartet |
Warnmeldung | Es gab mehrere Neustarts von Diensten auf allen Controller-VMs. Die letzten Abstürze dieser Dienste sind jeweils zu den angegebenen Zeitstempeln aufgetreten. |
Lösung
Wenn die Prüfung cluster_services_status den Status FAIL zurückgibt, gehen Sie wie folgt vor:
- Überprüfen Sie die Liste der auf allen Controller-VMs generierten Core Dumps:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Führen Sie logbay von einer beliebigen Controller-VM aus aus, um die Protokolldateien der letzten 24 Stunden zu sammeln. (Weitere Informationen zu logbay finden Sie im Nutanix KB 6691. )
nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
Dadurch wird eine ZIP-Datei im Verzeichnis /home/nutanix/data/logbay/bundles/ generiert.
Hinweis: Das aggregierte Protokollpaket kann auf größeren Clustern für die 24-Stunden-Protokollerfassung zu groß werden. Verwenden Sie in einem solchen Fall logbay ohne die Option --aggregate und laden Sie Protokollpakete von jedem CVM in den Supportfall hoch.
- Überprüfen Sie Folgendes und suchen Sie nach Dateien mit *.stack_trace.txt.gz , die sich auf dem CVM befinden müssen, das die Core Dumps generiert hat.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Erstellen Sie einen neuen Fall im Nutanix-Supportportal und hängen Sie die Ausgabe der obigen Befehle und das Logbay-Paket an den Supportfall an.
Weitere Informationen
- Nutanix KB 3378 – Originaldokument im Nutanix Portal
- Nutanix-Landingpage
- Lenovo ISG-Supportplan – ThinkAgile HX Appliance und Lenovo Converged HX Series