NCC-statuscheck: cluster_services_status

Dit artikel is een machinevertaling. Klik hier om de originele Engelse versie te bekijken.

Beschrijving

De NCC-statuscontrole cluster_services_status verifieert of de Controller VM (CVM)-services onlangs in het hele cluster opnieuw zijn opgestart.

Klik hier om de aangevinkte services weer te geven

Voorafgaand aan NCC-3.10.1

Deze controle wordt elke 4 uur uitgevoerd en zoekt naar FATAL-logboeken die in de afgelopen 24 uur zijn gegenereerd.

Hoewel deze NCC-controle controles uitvoert op de huidige servicestatus en eerdere crashes, resulteert deze controle alleen in een FAIL-status als een of meer services meerdere keren zijn gecrasht en binnen de afgelopen 24 uur een FATAL log hebben gegenereerd (5 keer op één controller). VM of 10 keer in het hele cluster).

Posten op NCC-3.10.1

Deze controle wordt elke 10 minuten uitgevoerd en zoekt naar FATAL-logboeken die in de afgelopen 24 uur zijn gegenereerd.

De controle mislukt in de volgende twee gevallen:

Een service FATALs 10 keer over het cluster, op één dag voor clusters met meer dan 10 knooppunten (OR) Het aantal FATALs op één dag is groter dan of gelijk aan het aantal knooppunten in het cluster, voor clusters met maximaal 10 knooppunten.
Een service fataal 5 keer in één CVM, op één dag.

Eén knooppunt in het cluster rapporteert een FAIL-status van de cluster_services_status- controle namens alle andere CVM's in het cluster. Wanneer u onderzoek doet naar FATAL-logboeken, zorg er dan voor dat u alle CVM's bekijkt, waarbij u de lijst met getroffen services uit het FAIL-statusbericht als richtlijn gebruikt.

Als er onlangs onderhoudsactiviteiten op het cluster zijn uitgevoerd, geeft een FAIL-status van deze controle aan dat de services instabiel zijn, wat mogelijk de prestaties of bruikbaarheid van het cluster kan beïnvloeden.

Vanaf NCC versie 3.5.1 is deze controle van toepassing op Prism Central VM's in een scaleout pc-cluster.

Het uitvoeren van de NCC-controle

Voer deze controle uit als onderdeel van de volledige NCC Health Checks.

 nutanix@cvm$ ncc health_checks run_all

Of u kunt deze controle afzonderlijk uitvoeren.

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

U kunt de controles ook uitvoeren vanaf de Prism-webconsole Gezondheidspagina: selecteer Acties > Controles uitvoeren . Selecteer Alle controles en klik op Uitvoeren .

Deze controle wordt standaard elke 10 minuten uitgevoerd.
Deze controle genereert na 1 fout een waarschuwing.

Voorbeelduitvoer

Voor status: PASS

 /health_checks/system_checks/cluster_services_status uitvoeren op alle knooppunten [ PASS ]
--------------------------------------------- ---------------------+
+---------------+
| Staat | Tel |
+---------------+
| Pass | 1 |
| Totaal | 1 |
+---------------+
Plug-inuitvoer geschreven naar /home/nutanix/data/logs/ncc-output-latest.log

Voor status: FOUT

 Gedetailleerde informatie voor cluster_services_status:
 Knooppunt xxxx:
 FOUT: Kern van componenten gedumpt in de afgelopen 24 uur: ['cerebro', 'curator']
 Raadpleeg KB 3378 (http://portal.nutanix.com/kb/3378) voor details over cluster_services_status of controleer opnieuw met: ncc health_checks system_checks cluster_services_status

Uitvoerberichten

Controleer identiteitskaart	3034
Beschrijving	Controleer of de services onlangs in het hele cluster opnieuw zijn opgestart.
Oorzaken van falen	Deze waarschuwing geeft aan dat een of meer services in het cluster opnieuw zijn gestart.
Resoluties	Als deze waarschuwing één keer of niet vaak voorkomt, is er geen actie nodig. Als dit vaker voorkomt, neem dan contact op met de ondersteuning van Nutanix.
Invloed	De clusterprestaties kunnen aanzienlijk verslechteren. Als er meerdere services met dezelfde voorwaarde zijn, kan het cluster mogelijk geen I/O-aanvragen meer verwerken.
Waarschuwings-ID	A3034
Slimme titel waarschuwen	Clusterservice wordt regelmatig opnieuw opgestart
Titel van waarschuwing	Clusterserviceservices Regelmatig opnieuw opstarten
Waarschuwingsbericht	Er zijn meerdere herstarts van services geweest voor alle controller-VM('s). De laatste crash van deze services heeft respectievelijk plaatsgevonden op tijdstempels.

Oplossing

Als de controle cluster_services_status de status FAIL retourneert, doet u het volgende:

Bekijk de lijst met kerndumps die op alle controller-VM's zijn gegenereerd:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Voer logbay uit vanaf elke controller-VM om de logbestanden van de afgelopen 24 uur te verzamelen. (Zie Nutanix KB 6691 voor meer informatie over logbay .)
```
 nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
```
Dit genereert een zip-bestand in de map /home/nutanix/data/logbay/bundles/ .
Opmerking: De samengevoegde logboekbundel kan bij grotere clusters te groot worden voor het 24 uur per dag verzamelen van logboeken. In een dergelijk geval gebruikt u logbay zonder de optie --aggregate en uploadt u logbundels van elke CVM naar de ondersteuningsaanvraag.

Controleer het volgende en zoek naar bestanden met *.stack_trace.txt.gz die zich op de CVM moeten bevinden die kerndumps heeft gegenereerd.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Maak een nieuwe case aan op de Nutanix Support Portal en voeg de uitvoer van bovenstaande opdrachten en de logbay-bundel toe aan de supportcase.

Extra informatie

Nutanix KB 3378 - Origineel document in Nutanix Portal
Nutanix-bestemmingspagina
Lenovo ISG-ondersteuningsplan - ThinkAgile HX Appliance en Lenovo Converged HX-serie

Document-ID:HT516511

Oorspronkelijke publicatiedatum:05/21/2024

Laatste gewijzigde datum:05/30/2024