Nota: questo sito Web include un sistema di accessibilità. Premi Control-F11 per adattare il sito web ai non vedenti che utilizzano uno screen reader; Premi Control-F10 per aprire un menu di accessibilità.

Controllo dello stato NCC: cluster_services_status

Controllo dello stato NCC: cluster_services_status

Controllo dello stato NCC: cluster_services_status

Questo è un articolo tradotto automaticamente, fai clic qui per visualizzare la versione originale in inglese.

Descrizione

Il controllo dello stato NCC cluster_services_status verifica se i servizi Controller VM (CVM) sono stati riavviati di recente nel cluster.

Fare clic qui per visualizzare i servizi selezionati

Prima di NCC-3.10.1

Questo controllo viene eseguito ogni 4 ore e cerca i registri FATAL generati nelle ultime 24 ore.

Sebbene questo controllo NCC esegua controlli sullo stato corrente del servizio e sugli arresti anomali precedenti, questo controllo risulta in uno stato FAIL solo se uno o più servizi si sono arrestati in modo anomalo più volte e hanno generato un registro FATAL nelle ultime 24 ore (5 volte su un singolo controller VM o 10 volte nel cluster).

Pubblica su NCC-3.10.1

Questo controllo viene eseguito ogni 10 minuti e cerca i registri FATAL generati nelle ultime 24 ore.

Il controllo fallisce nei due casi seguenti:

  • Un servizio FATAL 10 volte nel cluster, in un giorno per cluster con più di 10 nodi (OR) Il numero di FATAL, in un giorno, è maggiore o uguale al numero di nodi nel cluster, per cluster che ne hanno fino a 10 nodi.
  • Un servizio FATAL 5 volte in un unico CVM, in un giorno.

Un singolo nodo nel cluster segnala uno stato FAIL del controllo cluster_services_status per conto di tutti gli altri CVM nel cluster. Durante l'analisi dei registri FATAL, assicurati di esaminare tutti i CVM, utilizzando come guida l'elenco dei servizi interessati dal messaggio di stato FAIL.

Se di recente sono state eseguite attività di manutenzione sul cluster, uno stato FAIL di questo controllo indica che i servizi sono instabili, il che potrebbe potenzialmente influire sulle prestazioni o sulla funzionalità del cluster.

A partire dalla versione 3.5.1 di NCC, questo controllo è applicabile alle VM Prism Central in un cluster di PC scalabile.

Esecuzione del controllo NCC

Esegui questo controllo come parte dei controlli sanitari NCC completi.

 nutanix@cvm$ ncc Health_checks run_all

Oppure puoi eseguire questo controllo individualmente.

 nutanix@cvm$ ncc Health_checks system_checks cluster_services_status

È inoltre possibile eseguire i controlli dalla pagina Salute della console web Prism: selezionare Azioni > Esegui controlli . Selezionare Tutti i controlli e fare clic su Esegui .

Per impostazione predefinita, questo controllo viene eseguito ogni 10 minuti.
Questo controllo genererà un avviso dopo 1 errore.

Uscita del campione

Per lo stato: PASS

 Esecuzione di /health_checks/system_checks/cluster_services_status su tutti i nodi [ PASS ]
-------------------------------------------------- -----------------------+
+---------------+
| Stato | Conte |
+---------------+
| Passare | 1|
| Totale | 1|
+---------------+
Output del plugin scritto in /home/nutanix/data/logs/ncc-output-latest.log

Per lo stato: FAIL

 Informazioni dettagliate per cluster_services_status:
 Nodo xxxx:
 FAIL: core dei componenti scaricati nelle ultime 24 ore: ['cerebro', 'curator']
 Fare riferimento a KB 3378 (http://portal.nutanix.com/kb/3378) per dettagli su cluster_services_status o Ricontrolla con: ncc Health_checks system_checks cluster_services_status

Messaggistica in uscita

Controlla l'identità 3034
Descrizione Controlla se i servizi sono stati riavviati di recente nel cluster.
Cause di fallimento Questo avviso indica che uno o più servizi nel cluster sono stati riavviati.
Risoluzioni Se questo avviso si verifica una volta o raramente, non è necessaria alcuna azione. Se è frequente, contatta il supporto Nutanix.
Impatto Le prestazioni del cluster potrebbero risultare notevolmente ridotte. Nel caso di più servizi con la stessa condizione, il cluster potrebbe non essere più in grado di soddisfare le richieste di I/O.
ID avviso A3034
Avviso titolo intelligente Servizio cluster che si riavvia frequentemente
Titolo dell'avviso Servizi del servizio cluster che si riavviano frequentemente
Messaggio di avviso Si sono verificati più riavvii dei servizi su tutte le VM controller. L'ultimo arresto anomalo di questi servizi si è verificato rispettivamente ai timestamp.

Soluzione

Se il controllo cluster_services_status restituisce uno stato FAIL, procedere come segue:

  1. Controlla l'elenco dei core dump generati su tutte le VM controller:
     nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
  1. Esegui logbay da qualsiasi VM controller per raccogliere i file di registro delle ultime 24 ore. (Per ulteriori informazioni su logbay , vedere Nutanix KB 6691. )
     nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
    Questo genera un file zip nella directory /home/nutanix/data/logbay/bundles/ .
    Nota: il bundle di log aggregato potrebbe diventare troppo grande su cluster più grandi per la raccolta di log 24 ore su 24. In tal caso, utilizza logbay senza l'opzione --aggregate e carica i bundle di log da ciascun CVM nel caso di supporto.
  1. Verificare quanto segue e cercare i file con *.stack_trace.txt.gz che devono trovarsi sul CVM che ha generato i core dump.
     nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
  1. Crea un nuovo caso sul portale di supporto Nutanix e allega l'output dei comandi precedenti e il bundle logbay al caso di supporto.

Informazioni aggiuntive

ID Documento:HT516511
Data pubblicazione originale:05/21/2024
Data ultima modifica:05/30/2024