Kontrola stavu NCC: cluster_services_status

Tento článek byl přeložen automatem, původní anglickou verzi zobrazíte kliknutím sem.

Popis

Kontrola stavu NCC cluster_services_status ověřuje, zda se služby Controller VM (CVM) nedávno v clusteru restartovaly.

Kliknutím sem zobrazíte zaškrtnuté služby

Před NCC-3.10.1

Tato kontrola se provádí každé 4 hodiny a hledá FATAL protokoly vygenerované za posledních 24 hodin.

I když tato kontrola NCC provádí kontroly aktuálního stavu služby a předchozích selhání, výsledkem této kontroly je stav FAIL pouze v případě, že jedna nebo více služeb vícekrát selhalo a vygenerovalo FATAL protokol za posledních 24 hodin (5krát na jednom ovladači VM nebo 10krát v celém clusteru).

Odeslat do NCC-3.10.1

Tato kontrola se provádí každých 10 minut a hledá FATAL protokoly vygenerované za posledních 24 hodin.

Kontrola se nezdaří v následujících dvou případech:

Služba FATAL 10krát v celém clusteru za jeden den pro clustery s více než 10 uzly (NEBO) Počet FATAL za jeden den je větší nebo roven počtu uzlů v clusteru, pro clustery mající až 10 uzly.
Služba je 5krát FATAL v jediném CVM za jeden den.

Jeden uzel v clusteru hlásí stav FAIL kontroly cluster_services_status jménem všech ostatních CVM v clusteru. Při hledání protokolů FATAL se ujistěte, že se podíváte na všechny CVM, přičemž jako vodítko použijete seznam dotčených služeb ze zprávy o stavu FAIL.

Pokud byly v klastru nedávno provedeny činnosti údržby, stav FAIL této kontroly indikuje, že služby jsou nestabilní, což může potenciálně ovlivnit výkon nebo provozuschopnost klastru.

Od verze NCC 3.5.1 je tato kontrola použitelná pro virtuální počítače Prism Central v škálovaném PC clusteru.

Spuštění kontroly NCC

Spusťte tuto kontrolu jako součást kompletních kontrol stavu NCC.

 nutanix@cvm$ ncc health_checks run_all

Nebo můžete tuto kontrolu spustit jednotlivě.

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

Kontroly můžete také spustit ze stránky Zdraví webové konzole Prism: vyberte Akce > Spustit kontroly . Vyberte Všechny kontroly a klikněte na Spustit .

Tato kontrola je ve výchozím nastavení naplánována na každých 10 minut.
Tato kontrola vygeneruje výstrahu po 1 selhání.

Ukázkový výstup

Pro stav: PASS

 Spuštění /health_checks/system_checks/cluster_services_status na všech uzlech [PASS]
-------------------------------------------------- -----------------------+
+----------------+
| stát | hrabě |
+----------------+
| Pass | 1 |
| Celkem | 1 |
+----------------+
Výstup pluginu zapsaný do /home/nutanix/data/logs/ncc-output-latest.log

Pro stav: FAIL

 Podrobné informace pro cluster_services_status:
 Uzel xxxx:
 FAIL: Vyřazení jádra komponent za posledních 24 hodin: ['cerebro', 'curator']
 Podrobnosti o cluster_services_status naleznete v KB 3378 (http://portal.nutanix.com/kb/3378) nebo znovu zkontrolujte pomocí: ncc health_checks system_checks cluster_services_status

Výstupní zprávy

Zkontrolujte ID	3034
Popis	Zkontrolujte, zda se služby v clusteru nedávno restartovaly.
Příčiny neúspěchu	Tato výstraha označuje, že jedna nebo více služeb v clusteru bylo restartováno.
Usnesení	Pokud se tato výstraha objeví jednou nebo zřídka, není nutná žádná akce. Pokud je to časté, kontaktujte podporu Nutanix.
Dopad	Výkon clusteru může být výrazně snížen. V případě více služeb se stejnou podmínkou se může stát, že cluster nebude schopen obsluhovat požadavky I/O.
ID upozornění	A3034
Upozornění Smart Title	Clusterová služba se často restartuje
Název upozornění	Služby Cluster Service se často restartují
Výstražná zpráva	Na všech virtuálních počítačích řadiče došlo k několika restartům služeb. K poslednímu selhání těchto služeb došlo v časových razítkách, resp.

Řešení

Pokud kontrola cluster_services_status vrátí stav FAIL, proveďte následující:

Zkontrolujte seznam výpisů jádra generovaných na všech virtuálních počítačích řadiče.:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Spusťte logbay z libovolného virtuálního počítače Controller a shromážděte soubory protokolu za posledních 24 hodin. (Další informace o logbay naleznete v Nutanix KB 6691. )
```
 nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
```
Tím se vygeneruje soubor zip v adresáři /home/nutanix/data/logbay/bundles/ .
Poznámka: Balíček agregovaných protokolů může být na větších clusterech příliš velký pro 24hodinové shromažďování protokolů. V takovém případě použijte logbay bez možnosti --aggregate a nahrajte balíčky protokolů z každého CVM do případu podpory.

Ověřte následující a vyhledejte soubory s *.stack_trace.txt.gz , které musí být v CVM, který vygeneroval výpisy jádra.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Vytvořte nový případ na portálu podpory Nutanix a připojte výstup výše uvedených příkazů a svazek logbay k pouzdru podpory.

dodatečné informace

Nutanix KB 3378 - Původní dokument na portálu Nutanix
Vstupní stránka Nutanix
Plán podpory Lenovo ISG – zařízení ThinkAgile HX a Lenovo Converged HX Series

ID dokumentu:HT516511

Datum původního zveřejnění:05/21/2024

Datum poslední úpravy:05/30/2024