Controllo dello stato NCC: cluster_services_status

Questo è un articolo tradotto automaticamente, fai clic qui per visualizzare la versione originale in inglese.

Descrizione

Il controllo dello stato NCC cluster_services_status verifica se i servizi Controller VM (CVM) sono stati riavviati di recente nel cluster.

Fare clic qui per visualizzare i servizi selezionati

Prima di NCC-3.10.1

Questo controllo viene eseguito ogni 4 ore e cerca i registri FATAL generati nelle ultime 24 ore.

Sebbene questo controllo NCC esegua controlli sullo stato corrente del servizio e sugli arresti anomali precedenti, questo controllo risulta in uno stato FAIL solo se uno o più servizi si sono arrestati in modo anomalo più volte e hanno generato un registro FATAL nelle ultime 24 ore (5 volte su un singolo controller VM o 10 volte nel cluster).

Pubblica su NCC-3.10.1

Questo controllo viene eseguito ogni 10 minuti e cerca i registri FATAL generati nelle ultime 24 ore.

Il controllo fallisce nei due casi seguenti:

Un servizio FATAL 10 volte nel cluster, in un giorno per cluster con più di 10 nodi (OR) Il numero di FATAL, in un giorno, è maggiore o uguale al numero di nodi nel cluster, per cluster che ne hanno fino a 10 nodi.
Un servizio FATAL 5 volte in un unico CVM, in un giorno.

Un singolo nodo nel cluster segnala uno stato FAIL del controllo cluster_services_status per conto di tutti gli altri CVM nel cluster. Durante l'analisi dei registri FATAL, assicurati di esaminare tutti i CVM, utilizzando come guida l'elenco dei servizi interessati dal messaggio di stato FAIL.

Se di recente sono state eseguite attività di manutenzione sul cluster, uno stato FAIL di questo controllo indica che i servizi sono instabili, il che potrebbe potenzialmente influire sulle prestazioni o sulla funzionalità del cluster.

A partire dalla versione 3.5.1 di NCC, questo controllo è applicabile alle VM Prism Central in un cluster di PC scalabile.

Esecuzione del controllo NCC

Esegui questo controllo come parte dei controlli sanitari NCC completi.

 nutanix@cvm$ ncc Health_checks run_all

Oppure puoi eseguire questo controllo individualmente.

 nutanix@cvm$ ncc Health_checks system_checks cluster_services_status

È inoltre possibile eseguire i controlli dalla pagina Salute della console web Prism: selezionare Azioni > Esegui controlli . Selezionare Tutti i controlli e fare clic su Esegui .

Per impostazione predefinita, questo controllo viene eseguito ogni 10 minuti.
Questo controllo genererà un avviso dopo 1 errore.

Uscita del campione

Per lo stato: PASS

 Esecuzione di /health_checks/system_checks/cluster_services_status su tutti i nodi [ PASS ]
-------------------------------------------------- -----------------------+
+---------------+
| Stato | Conte |
+---------------+
| Passare | 1|
| Totale | 1|
+---------------+
Output del plugin scritto in /home/nutanix/data/logs/ncc-output-latest.log

Per lo stato: FAIL

 Informazioni dettagliate per cluster_services_status:
 Nodo xxxx:
 FAIL: core dei componenti scaricati nelle ultime 24 ore: ['cerebro', 'curator']
 Fare riferimento a KB 3378 (http://portal.nutanix.com/kb/3378) per dettagli su cluster_services_status o Ricontrolla con: ncc Health_checks system_checks cluster_services_status

Messaggistica in uscita

Controlla l'identità	3034
Descrizione	Controlla se i servizi sono stati riavviati di recente nel cluster.
Cause di fallimento	Questo avviso indica che uno o più servizi nel cluster sono stati riavviati.
Risoluzioni	Se questo avviso si verifica una volta o raramente, non è necessaria alcuna azione. Se è frequente, contatta il supporto Nutanix.
Impatto	Le prestazioni del cluster potrebbero risultare notevolmente ridotte. Nel caso di più servizi con la stessa condizione, il cluster potrebbe non essere più in grado di soddisfare le richieste di I/O.
ID avviso	A3034
Avviso titolo intelligente	Servizio cluster che si riavvia frequentemente
Titolo dell'avviso	Servizi del servizio cluster che si riavviano frequentemente
Messaggio di avviso	Si sono verificati più riavvii dei servizi su tutte le VM controller. L'ultimo arresto anomalo di questi servizi si è verificato rispettivamente ai timestamp.

Soluzione

Se il controllo cluster_services_status restituisce uno stato FAIL, procedere come segue:

Controlla l'elenco dei core dump generati su tutte le VM controller:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Esegui logbay da qualsiasi VM controller per raccogliere i file di registro delle ultime 24 ore. (Per ulteriori informazioni su logbay , vedere Nutanix KB 6691. )
```
 nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
```
Questo genera un file zip nella directory /home/nutanix/data/logbay/bundles/ .
Nota: il bundle di log aggregato potrebbe diventare troppo grande su cluster più grandi per la raccolta di log 24 ore su 24. In tal caso, utilizza logbay senza l'opzione --aggregate e carica i bundle di log da ciascun CVM nel caso di supporto.

Verificare quanto segue e cercare i file con *.stack_trace.txt.gz che devono trovarsi sul CVM che ha generato i core dump.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Crea un nuovo caso sul portale di supporto Nutanix e allega l'output dei comandi precedenti e il bundle logbay al caso di supporto.

Informazioni aggiuntive

Nutanix KB 3378 - Documento originale nel portale Nutanix
Pagina di destinazione di Nutanix
Piano di supporto Lenovo ISG: dispositivo ThinkAgile HX e serie Lenovo Converged HX

ID Documento:HT516511

Data pubblicazione originale:05/21/2024

Data ultima modifica:05/30/2024