NCC-statuscheck: cluster_services_status
NCC-statuscheck: cluster_services_status
NCC-statuscheck: cluster_services_status
Beschrijving
De NCC-statuscontrole cluster_services_status verifieert of de Controller VM (CVM)-services onlangs in het hele cluster opnieuw zijn opgestart.
Klik hier om de aangevinkte services weer te geven
Voorafgaand aan NCC-3.10.1
Deze controle wordt elke 4 uur uitgevoerd en zoekt naar FATAL-logboeken die in de afgelopen 24 uur zijn gegenereerd.
Hoewel deze NCC-controle controles uitvoert op de huidige servicestatus en eerdere crashes, resulteert deze controle alleen in een FAIL-status als een of meer services meerdere keren zijn gecrasht en binnen de afgelopen 24 uur een FATAL log hebben gegenereerd (5 keer op één controller). VM of 10 keer in het hele cluster).
Posten op NCC-3.10.1
Deze controle wordt elke 10 minuten uitgevoerd en zoekt naar FATAL-logboeken die in de afgelopen 24 uur zijn gegenereerd.
De controle mislukt in de volgende twee gevallen:
- Een service FATALs 10 keer over het cluster, op één dag voor clusters met meer dan 10 knooppunten (OR) Het aantal FATALs op één dag is groter dan of gelijk aan het aantal knooppunten in het cluster, voor clusters met maximaal 10 knooppunten.
- Een service fataal 5 keer in één CVM, op één dag.
Eén knooppunt in het cluster rapporteert een FAIL-status van de cluster_services_status- controle namens alle andere CVM's in het cluster. Wanneer u onderzoek doet naar FATAL-logboeken, zorg er dan voor dat u alle CVM's bekijkt, waarbij u de lijst met getroffen services uit het FAIL-statusbericht als richtlijn gebruikt.
Als er onlangs onderhoudsactiviteiten op het cluster zijn uitgevoerd, geeft een FAIL-status van deze controle aan dat de services instabiel zijn, wat mogelijk de prestaties of bruikbaarheid van het cluster kan beïnvloeden.
Vanaf NCC versie 3.5.1 is deze controle van toepassing op Prism Central VM's in een scaleout pc-cluster.
Het uitvoeren van de NCC-controle
Voer deze controle uit als onderdeel van de volledige NCC Health Checks.
nutanix@cvm$ ncc health_checks run_all
Of u kunt deze controle afzonderlijk uitvoeren.
nutanix@cvm$ ncc health_checks system_checks cluster_services_status
U kunt de controles ook uitvoeren vanaf de Prism-webconsole Gezondheidspagina: selecteer Acties > Controles uitvoeren . Selecteer Alle controles en klik op Uitvoeren .
Deze controle wordt standaard elke 10 minuten uitgevoerd.
Deze controle genereert na 1 fout een waarschuwing.
Voorbeelduitvoer
Voor status: PASS
/health_checks/system_checks/cluster_services_status uitvoeren op alle knooppunten [ PASS ]
--------------------------------------------- ---------------------+
+---------------+
| Staat | Tel |
+---------------+
| Pass | 1 |
| Totaal | 1 |
+---------------+
Plug-inuitvoer geschreven naar /home/nutanix/data/logs/ncc-output-latest.log
Voor status: FOUT
Gedetailleerde informatie voor cluster_services_status:
Knooppunt xxxx:
FOUT: Kern van componenten gedumpt in de afgelopen 24 uur: ['cerebro', 'curator']
Raadpleeg KB 3378 (http://portal.nutanix.com/kb/3378) voor details over cluster_services_status of controleer opnieuw met: ncc health_checks system_checks cluster_services_status
Uitvoerberichten
Controleer identiteitskaart | 3034 |
Beschrijving | Controleer of de services onlangs in het hele cluster opnieuw zijn opgestart. |
Oorzaken van falen | Deze waarschuwing geeft aan dat een of meer services in het cluster opnieuw zijn gestart. |
Resoluties | Als deze waarschuwing één keer of niet vaak voorkomt, is er geen actie nodig. Als dit vaker voorkomt, neem dan contact op met de ondersteuning van Nutanix. |
Invloed | De clusterprestaties kunnen aanzienlijk verslechteren. Als er meerdere services met dezelfde voorwaarde zijn, kan het cluster mogelijk geen I/O-aanvragen meer verwerken. |
Waarschuwings-ID | A3034 |
Slimme titel waarschuwen | Clusterservice wordt regelmatig opnieuw opgestart |
Titel van waarschuwing | Clusterserviceservices Regelmatig opnieuw opstarten |
Waarschuwingsbericht | Er zijn meerdere herstarts van services geweest voor alle controller-VM('s). De laatste crash van deze services heeft respectievelijk plaatsgevonden op tijdstempels. |
Oplossing
Als de controle cluster_services_status de status FAIL retourneert, doet u het volgende:
- Bekijk de lijst met kerndumps die op alle controller-VM's zijn gegenereerd:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Voer logbay uit vanaf elke controller-VM om de logbestanden van de afgelopen 24 uur te verzamelen. (Zie Nutanix KB 6691 voor meer informatie over logbay .)
nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
Dit genereert een zip-bestand in de map /home/nutanix/data/logbay/bundles/ .
Opmerking: De samengevoegde logboekbundel kan bij grotere clusters te groot worden voor het 24 uur per dag verzamelen van logboeken. In een dergelijk geval gebruikt u logbay zonder de optie --aggregate en uploadt u logbundels van elke CVM naar de ondersteuningsaanvraag.
- Controleer het volgende en zoek naar bestanden met *.stack_trace.txt.gz die zich op de CVM moeten bevinden die kerndumps heeft gegenereerd.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Maak een nieuwe case aan op de Nutanix Support Portal en voeg de uitvoer van bovenstaande opdrachten en de logbay-bundel toe aan de supportcase.
Extra informatie
- Nutanix KB 3378 - Origineel document in Nutanix Portal
- Nutanix-bestemmingspagina
- Lenovo ISG-ondersteuningsplan - ThinkAgile HX Appliance en Lenovo Converged HX-serie