Controllo dello stato NCC: cluster_services_status
Controllo dello stato NCC: cluster_services_status
Controllo dello stato NCC: cluster_services_status
Descrizione
Il controllo dello stato NCC cluster_services_status verifica se i servizi Controller VM (CVM) sono stati riavviati di recente nel cluster.
Fare clic qui per visualizzare i servizi selezionati
Prima di NCC-3.10.1
Questo controllo viene eseguito ogni 4 ore e cerca i registri FATAL generati nelle ultime 24 ore.
Sebbene questo controllo NCC esegua controlli sullo stato corrente del servizio e sugli arresti anomali precedenti, questo controllo risulta in uno stato FAIL solo se uno o più servizi si sono arrestati in modo anomalo più volte e hanno generato un registro FATAL nelle ultime 24 ore (5 volte su un singolo controller VM o 10 volte nel cluster).
Pubblica su NCC-3.10.1
Questo controllo viene eseguito ogni 10 minuti e cerca i registri FATAL generati nelle ultime 24 ore.
Il controllo fallisce nei due casi seguenti:
- Un servizio FATAL 10 volte nel cluster, in un giorno per cluster con più di 10 nodi (OR) Il numero di FATAL, in un giorno, è maggiore o uguale al numero di nodi nel cluster, per cluster che ne hanno fino a 10 nodi.
- Un servizio FATAL 5 volte in un unico CVM, in un giorno.
Un singolo nodo nel cluster segnala uno stato FAIL del controllo cluster_services_status per conto di tutti gli altri CVM nel cluster. Durante l'analisi dei registri FATAL, assicurati di esaminare tutti i CVM, utilizzando come guida l'elenco dei servizi interessati dal messaggio di stato FAIL.
Se di recente sono state eseguite attività di manutenzione sul cluster, uno stato FAIL di questo controllo indica che i servizi sono instabili, il che potrebbe potenzialmente influire sulle prestazioni o sulla funzionalità del cluster.
A partire dalla versione 3.5.1 di NCC, questo controllo è applicabile alle VM Prism Central in un cluster di PC scalabile.
Esecuzione del controllo NCC
Esegui questo controllo come parte dei controlli sanitari NCC completi.
nutanix@cvm$ ncc Health_checks run_all
Oppure puoi eseguire questo controllo individualmente.
nutanix@cvm$ ncc Health_checks system_checks cluster_services_status
È inoltre possibile eseguire i controlli dalla pagina Salute della console web Prism: selezionare Azioni > Esegui controlli . Selezionare Tutti i controlli e fare clic su Esegui .
Per impostazione predefinita, questo controllo viene eseguito ogni 10 minuti.
Questo controllo genererà un avviso dopo 1 errore.
Uscita del campione
Per lo stato: PASS
Esecuzione di /health_checks/system_checks/cluster_services_status su tutti i nodi [ PASS ]
-------------------------------------------------- -----------------------+
+---------------+
| Stato | Conte |
+---------------+
| Passare | 1|
| Totale | 1|
+---------------+
Output del plugin scritto in /home/nutanix/data/logs/ncc-output-latest.log
Per lo stato: FAIL
Informazioni dettagliate per cluster_services_status:
Nodo xxxx:
FAIL: core dei componenti scaricati nelle ultime 24 ore: ['cerebro', 'curator']
Fare riferimento a KB 3378 (http://portal.nutanix.com/kb/3378) per dettagli su cluster_services_status o Ricontrolla con: ncc Health_checks system_checks cluster_services_status
Messaggistica in uscita
Controlla l'identità | 3034 |
Descrizione | Controlla se i servizi sono stati riavviati di recente nel cluster. |
Cause di fallimento | Questo avviso indica che uno o più servizi nel cluster sono stati riavviati. |
Risoluzioni | Se questo avviso si verifica una volta o raramente, non è necessaria alcuna azione. Se è frequente, contatta il supporto Nutanix. |
Impatto | Le prestazioni del cluster potrebbero risultare notevolmente ridotte. Nel caso di più servizi con la stessa condizione, il cluster potrebbe non essere più in grado di soddisfare le richieste di I/O. |
ID avviso | A3034 |
Avviso titolo intelligente | Servizio cluster che si riavvia frequentemente |
Titolo dell'avviso | Servizi del servizio cluster che si riavviano frequentemente |
Messaggio di avviso | Si sono verificati più riavvii dei servizi su tutte le VM controller. L'ultimo arresto anomalo di questi servizi si è verificato rispettivamente ai timestamp. |
Soluzione
Se il controllo cluster_services_status restituisce uno stato FAIL, procedere come segue:
- Controlla l'elenco dei core dump generati su tutte le VM controller:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Esegui logbay da qualsiasi VM controller per raccogliere i file di registro delle ultime 24 ore. (Per ulteriori informazioni su logbay , vedere Nutanix KB 6691. )
nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
Questo genera un file zip nella directory /home/nutanix/data/logbay/bundles/ .
Nota: il bundle di log aggregato potrebbe diventare troppo grande su cluster più grandi per la raccolta di log 24 ore su 24. In tal caso, utilizza logbay senza l'opzione --aggregate e carica i bundle di log da ciascun CVM nel caso di supporto.
- Verificare quanto segue e cercare i file con *.stack_trace.txt.gz che devono trovarsi sul CVM che ha generato i core dump.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Crea un nuovo caso sul portale di supporto Nutanix e allega l'output dei comandi precedenti e il bundle logbay al caso di supporto.
Informazioni aggiuntive
- Nutanix KB 3378 - Documento originale nel portale Nutanix
- Pagina di destinazione di Nutanix
- Piano di supporto Lenovo ISG: dispositivo ThinkAgile HX e serie Lenovo Converged HX