Analýza hlavní příčiny restartování CVM
Analýza hlavní příčiny restartování CVM
Analýza hlavní příčiny restartování CVM
Popis
Tento článek popisuje, jak řešit problémy a provádět analýzu hlavní příčiny, když se CVM (Controller VM) náhle restartuje.
Protokoly, které je třeba hledat uvnitř CVM:
dmesg /var/log/messages /home/log/messages (Bude mít podrobné protokoly jádra v době restartu.)
Protokoly, které je třeba hledat na hostiteli AHV:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
Protokoly, které je třeba hledat uvnitř ESXi:
/vmfs/volumes/NTNX-local-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
Chcete-li zkontrolovat využití paměti/procesoru/latenci disku CVM v době restartu, můžete zkontrolovat sysstats v protokolech /home/nutanix/data/logs/sysstats . Všimněte si, že protokoly jsou v časovém razítku UTC.
/home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO
Řešení
Příklady
- Poslední restart příkazu CVM:
nutanix@cvm$ poslední restart restartování systému boot 2.6.32-279.9.1.e Po 23. prosince 09:40 - 12:16 (02:36)
- Přihlášení na CVM /var/log/messages a kern.log :
23. prosince 09:40:06 NTNX-CVM-A jádro: fioinf Čeká se na vytvoření /dev/fct0 Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: probed fct0 Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sektor_velikost=512 Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Zařízení funguje jako blokové zařízení. Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: nastavení dat rozsahu kanálu na [2 .. 2047] Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** detekováno nečisté vypnutí, opětovné skenování log. *** Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** to může trvat několik minut. *** 23. prosince 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ***************************** ********************************* Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Bylo zjištěno přerušení napájení Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Úspěšně znovu připojeno po nečistém vypnutí. (AP: 1942+228114432) Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Vytváření blokového zařízení fioa: major: 252 minor: 0 velikost sektoru: 512... 23. prosince 09:40:06 NTNX-CVM-A jádro: fioa: fioa1
- Protokoly ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
2013-12-23T17:35:25.959Z| vcpu-0| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-2| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-7| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-1| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-5| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-4| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-3| I120: Reset CPU: měkký (režim 1) 2013-12-23T17:35:25.960Z| vcpu-6| I120: Reset CPU: měkký (režim 1)
"Restart hostujícího OS" na CVM iniciovaný z vCentre má za následek následující podpis v cvm vmware.log
(Všimněte si, že tato položka se v souboru vmware.log nevyskytuje, pokud bylo CVM řádně restartováno z clusteru Nutanix pomocí Upgrade AOS nebo příkazu cvm_shutdown)2022-03-01T23:24:30.638Z| vmx| I125: Nástroje: odesílání požadavku na změnu stavu 'OS_Reboot' (stav = 2).
"Vypnutí hostujícího OS" na CVM iniciované z vCentre má za následek následující podpis v cvm vmware.log
(Všimněte si, že tato položka se v souboru vmware.log nevyskytuje, pokud bylo CVM řádně vypnuto z clusteru Nutanix pomocí Upgrade AOS nebo příkazu cvm_shutdown)2022-03-02T00:22:15.448Z| vmx| I125: Nástroje: odeslání požadavku na změnu stavu 'OS_Halt' (stav = 1).
Další příklad vmware.log (založený na chybě VMware č. 676321):2013-07-17T22:35:53.907Z| vcpu-0| W110: MONITOR PANIC: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 2013-07-17T22:35:53.907Z| vcpu-0| I120: Výpis jádra se sestavením-838463 2013-07-17T22:35:53.907Z| vcpu-6| I120: Ukončení vcpu-6 2013-07-17T22:35:53.907Z| vcpu-4| I120: Ukončení vcpu-7 2013-07-17T22:35:53.907Z| vcpu-0| W110: Corefile pro zápis monitoru "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
Další vmware.log (chybná konfigurace EPT - VMware KB 1036775 ):2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIC: vcpu-0: Špatná konfigurace EPT: PA b49b405b0 2013-05-03T17:27:43.262Z| vcpu-1| Výpis jádra s buildem-623860 2013-05-03T17:27:43.262Z| vcpu-1| Zápis základního souboru monitoru "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz" 2013-05-03T17:27:43.262Z| vcpu-6| Ukončení vcpu-6
- Protokoly ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 ukazuje problém driver jbd2/fio v tomto příkladu:
poslední soubor sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Moduly propojené v: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jb-a-1-8------------ .6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
] [ ] JBD2_Journal_Commit_TransAction+0x120C/0x14B0 [JBD2] RSP: 0018: FFFF88043113D30 EFLAGS: 00010246 RAX: 00000000000000: Ffffffff804330D9800 FF000 RSI: 0000000000000286 RDI: FFFF8804330D9800 RBP: FFFF88043113E60 R08: FFFF880028216E90 R09: FFFF880028216F00 R10: 0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000.18000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000. R12: 00000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4AE0 R15: FFFF8804330D9898 FS: 00000000000000 (0000): 000000: 0000 00: 000000: 0000) 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000006F0 DR0: 0000000000000000 DR1: 000000000000000 DR2: 000000000000000 DR3: 0000000000000000 DR6: 0.0.0 0.000 00000000 DR7ff:0 bd2/fioa1-8 (pid: 3403, info o vláknu ffff880431112000, úkol ffff8804220a4ae0) Zásobník:
V případě jakéhokoli nedávného selhání pevného disku zkontrolujte protokol hades.out.
Pokud je disk metadat SSD, AOS vynutí restartování CVM. Pokud má AOS potíže s odebráním HDD a vynucené odebrání je spuštěno hades, CVM se restartuje.
Výstup ServiceVM.out.0 ( chyba 735768 ):
BUG jádra na fs/jbd2/commit.c:353! neplatný operační kód: 0000 [#1] SMP poslední soubor sysfs: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/blok/sdc/dev CPU 1
ESXi vmksummary , abyste zjistili, zda se hostitel ESXi restartoval:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: Host se vypíná 2015-02-07T08:43:04Z bootstop: Host se spustil
AHV:Protokoly spouštění systému z protokolů auditu na hypervizoru 11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0" hostitm= addr=? terminál=konzole res=úspěch' 11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc-old_t=exe'level=Nitrc-old_t=exe'0 /sbin/telinit" název hostitele=? addr=? terminal=console res=succe ss'
CVM:nutanix@cvm$ sudo grep -i "kmsg zahájen" /home/log/messages 2015-01-30T10:59:39.957663-08:00 NTNX-A-CVM jádro: imklog 5.8.10, zdroj protokolu = /proc/kmsg začala. 2015-02-07T00:46:55.164530-08:00 NTNX-A-CVM jádro: imklog 5.8.10, log source = /proc/kmsg spuštěno.
Přejděte o pár řádků výše, abyste získali další informace:nutanix@cvm$ sudo grep -i -B 5 "kmsg zahájen" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM typ 25u74a47dit.25u74 SYSCALL 99): arch =c000003e syscall=90 success=yes exit=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 gid=10 s.00 suid=1000 egid=1000 sgid=1000 fsgid=1000 tty=(žádné) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s023c klíč. perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audiodispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:y00sys=0sys arch.=700 success=700 exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 sg=0 id=1000 s d=1000 fsgid= 1000 tty=(none) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-18-: 00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanixggsonspythonej- -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 režim=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=00:00 obj object_r:user_home_t:s0 nametype=NORMAL
U novějších verzí CVM možná budete muset grep pro "rsyslogd.*start" spíše než "kmsg begin":
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] začátek 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: varování: ~ akce je zastaralá, zvažte místo toho použití příkazu 'stop' [zkuste http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Spuštěna služba protokolování systému.
dodatečné informace
- Nutanix KB 1252 - Původní dokument na portálu Nutanix
- Vstupní stránka Nutanix
- Plán podpory Lenovo ISG – zařízení ThinkAgile HX a Lenovo Converged HX Series