Kontrola stavu NCC: cluster_services_status
Kontrola stavu NCC: cluster_services_status
Kontrola stavu NCC: cluster_services_status
Popis
Kontrola stavu NCC cluster_services_status ověřuje, zda se služby Controller VM (CVM) nedávno v clusteru restartovaly.
Kliknutím sem zobrazíte zaškrtnuté služby
Před NCC-3.10.1
Tato kontrola se provádí každé 4 hodiny a hledá FATAL protokoly vygenerované za posledních 24 hodin.
I když tato kontrola NCC provádí kontroly aktuálního stavu služby a předchozích selhání, výsledkem této kontroly je stav FAIL pouze v případě, že jedna nebo více služeb vícekrát selhalo a vygenerovalo FATAL protokol za posledních 24 hodin (5krát na jednom ovladači VM nebo 10krát v celém clusteru).
Odeslat do NCC-3.10.1
Tato kontrola se provádí každých 10 minut a hledá FATAL protokoly vygenerované za posledních 24 hodin.
Kontrola se nezdaří v následujících dvou případech:
- Služba FATAL 10krát v celém clusteru za jeden den pro clustery s více než 10 uzly (NEBO) Počet FATAL za jeden den je větší nebo roven počtu uzlů v clusteru, pro clustery mající až 10 uzly.
- Služba je 5krát FATAL v jediném CVM za jeden den.
Jeden uzel v clusteru hlásí stav FAIL kontroly cluster_services_status jménem všech ostatních CVM v clusteru. Při hledání protokolů FATAL se ujistěte, že se podíváte na všechny CVM, přičemž jako vodítko použijete seznam dotčených služeb ze zprávy o stavu FAIL.
Pokud byly v klastru nedávno provedeny činnosti údržby, stav FAIL této kontroly indikuje, že služby jsou nestabilní, což může potenciálně ovlivnit výkon nebo provozuschopnost klastru.
Od verze NCC 3.5.1 je tato kontrola použitelná pro virtuální počítače Prism Central v škálovaném PC clusteru.
Spuštění kontroly NCC
Spusťte tuto kontrolu jako součást kompletních kontrol stavu NCC.
nutanix@cvm$ ncc health_checks run_all
Nebo můžete tuto kontrolu spustit jednotlivě.
nutanix@cvm$ ncc health_checks system_checks cluster_services_status
Kontroly můžete také spustit ze stránky Zdraví webové konzole Prism: vyberte Akce > Spustit kontroly . Vyberte Všechny kontroly a klikněte na Spustit .
Tato kontrola je ve výchozím nastavení naplánována na každých 10 minut.
Tato kontrola vygeneruje výstrahu po 1 selhání.
Ukázkový výstup
Pro stav: PASS
Spuštění /health_checks/system_checks/cluster_services_status na všech uzlech [PASS]
-------------------------------------------------- -----------------------+
+----------------+
| stát | hrabě |
+----------------+
| Pass | 1 |
| Celkem | 1 |
+----------------+
Výstup pluginu zapsaný do /home/nutanix/data/logs/ncc-output-latest.log
Pro stav: FAIL
Podrobné informace pro cluster_services_status:
Uzel xxxx:
FAIL: Vyřazení jádra komponent za posledních 24 hodin: ['cerebro', 'curator']
Podrobnosti o cluster_services_status naleznete v KB 3378 (http://portal.nutanix.com/kb/3378) nebo znovu zkontrolujte pomocí: ncc health_checks system_checks cluster_services_status
Výstupní zprávy
Zkontrolujte ID | 3034 |
Popis | Zkontrolujte, zda se služby v clusteru nedávno restartovaly. |
Příčiny neúspěchu | Tato výstraha označuje, že jedna nebo více služeb v clusteru bylo restartováno. |
Usnesení | Pokud se tato výstraha objeví jednou nebo zřídka, není nutná žádná akce. Pokud je to časté, kontaktujte podporu Nutanix. |
Dopad | Výkon clusteru může být výrazně snížen. V případě více služeb se stejnou podmínkou se může stát, že cluster nebude schopen obsluhovat požadavky I/O. |
ID upozornění | A3034 |
Upozornění Smart Title | Clusterová služba se často restartuje |
Název upozornění | Služby Cluster Service se často restartují |
Výstražná zpráva | Na všech virtuálních počítačích řadiče došlo k několika restartům služeb. K poslednímu selhání těchto služeb došlo v časových razítkách, resp. |
Řešení
Pokud kontrola cluster_services_status vrátí stav FAIL, proveďte následující:
- Zkontrolujte seznam výpisů jádra generovaných na všech virtuálních počítačích řadiče.:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Spusťte logbay z libovolného virtuálního počítače Controller a shromážděte soubory protokolu za posledních 24 hodin. (Další informace o logbay naleznete v Nutanix KB 6691. )
nutanix@cvm$ logbay collect --aggregate=true --duration=-24h
Tím se vygeneruje soubor zip v adresáři /home/nutanix/data/logbay/bundles/ .
Poznámka: Balíček agregovaných protokolů může být na větších clusterech příliš velký pro 24hodinové shromažďování protokolů. V takovém případě použijte logbay bez možnosti --aggregate a nahrajte balíčky protokolů z každého CVM do případu podpory.
- Ověřte následující a vyhledejte soubory s *.stack_trace.txt.gz , které musí být v CVM, který vygeneroval výpisy jádra.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Vytvořte nový případ na portálu podpory Nutanix a připojte výstup výše uvedených příkazů a svazek logbay k pouzdru podpory.
dodatečné informace
- Nutanix KB 3378 - Původní dokument na portálu Nutanix
- Vstupní stránka Nutanix
- Plán podpory Lenovo ISG – zařízení ThinkAgile HX a Lenovo Converged HX Series