Analýza hlavní příčiny restartování CVM

Tento článek byl přeložen automatem, původní anglickou verzi zobrazíte kliknutím sem.

Popis

Tento článek popisuje, jak řešit problémy a provádět analýzu hlavní příčiny, když se CVM (Controller VM) náhle restartuje.

Protokoly, které je třeba hledat uvnitř CVM:

 dmesg /var/log/messages /home/log/messages (Bude mít podrobné protokoly jádra v době restartu.)

Protokoly, které je třeba hledat na hostiteli AHV:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log

Protokoly, které je třeba hledat uvnitř ESXi:

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log

Chcete-li zkontrolovat využití paměti/procesoru/latenci disku CVM v době restartu, můžete zkontrolovat sysstats v protokolech /home/nutanix/data/logs/sysstats . Všimněte si, že protokoly jsou v časovém razítku UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

Řešení

Příklady

Poslední restart příkazu CVM:

 nutanix@cvm$ poslední restart
restartování systému boot 2.6.32-279.9.1.e Po 23. prosince 09:40 - 12:16 (02:36)

Přihlášení na CVM /var/log/messages a kern.log :

 23. prosince 09:40:06 NTNX-CVM-A jádro: fioinf Čeká se na vytvoření /dev/fct0
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: probed fct0
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sektor_velikost=512
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Zařízení funguje jako blokové zařízení.
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: nastavení dat rozsahu kanálu na [2 .. 2047]
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** detekováno nečisté vypnutí, opětovné skenování log. ***
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** to může trvat několik minut.              ***
23. prosince 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ***************************** *********************************
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Bylo zjištěno přerušení napájení
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Úspěšně znovu připojeno po nečistém vypnutí.  (AP: 1942+228114432)
Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Vytváření blokového zařízení fioa: major: 252 minor: 0 velikost sektoru: 512...
23. prosince 09:40:06 NTNX-CVM-A jádro: fioa: fioa1

Protokoly ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :

 2013-12-23T17:35:25.959Z| vcpu-0| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-2| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-7| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-1| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-5| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-4| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-3| I120: Reset CPU: měkký (režim 1)
2013-12-23T17:35:25.960Z| vcpu-6| I120: Reset CPU: měkký (režim 1)

"Restart hostujícího OS" na CVM iniciovaný z vCentre má za následek následující podpis v cvm vmware.log
(Všimněte si, že tato položka se v souboru vmware.log nevyskytuje, pokud bylo CVM řádně restartováno z clusteru Nutanix pomocí Upgrade AOS nebo příkazu cvm_shutdown)

 2022-03-01T23:24:30.638Z| vmx| I125: Nástroje: odesílání požadavku na změnu stavu 'OS_Reboot' (stav = 2).

"Vypnutí hostujícího OS" na CVM iniciované z vCentre má za následek následující podpis v cvm vmware.log
(Všimněte si, že tato položka se v souboru vmware.log nevyskytuje, pokud bylo CVM řádně vypnuto z clusteru Nutanix pomocí Upgrade AOS nebo příkazu cvm_shutdown)

 2022-03-02T00:22:15.448Z| vmx| I125: Nástroje: odeslání požadavku na změnu stavu 'OS_Halt' (stav = 1).

Další příklad vmware.log (založený na chybě VMware č. 676321):

 2013-07-17T22:35:53.907Z| vcpu-0| W110: MONITOR PANIC: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
2013-07-17T22:35:53.907Z| vcpu-0| I120: Výpis jádra se sestavením-838463
2013-07-17T22:35:53.907Z| vcpu-6| I120: Ukončení vcpu-6
2013-07-17T22:35:53.907Z| vcpu-4| I120: Ukončení vcpu-7
2013-07-17T22:35:53.907Z| vcpu-0| W110: Corefile pro zápis monitoru "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"

Další vmware.log (chybná konfigurace EPT - VMware KB 1036775 ):

 2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIC: vcpu-0: Špatná konfigurace EPT: PA b49b405b0
2013-05-03T17:27:43.262Z| vcpu-1| Výpis jádra s buildem-623860
2013-05-03T17:27:43.262Z| vcpu-1| Zápis základního souboru monitoru "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz"
2013-05-03T17:27:43.262Z| vcpu-6| Ukončení vcpu-6

Protokoly ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 ukazuje problém driver jbd2/fio v tomto příkladu:

 poslední soubor sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Moduly propojené v: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jb-a-1-8------------ .6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
    
    ] [
     
    
     ] JBD2_Journal_Commit_TransAction+0x120C/0x14B0 [JBD2] RSP: 0018: FFFF88043113D30 EFLAGS: 00010246 RAX: 00000000000000: Ffffffff804330D9800 FF000 RSI: 0000000000000286 RDI: FFFF8804330D9800 RBP: FFFF88043113E60 R08: FFFF880028216E90 R09: FFFF880028216F00 R10: 0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000.18000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000. R12: 00000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4AE0 R15: FFFF8804330D9898 FS: 00000000000000 (0000): 000000: 0000 00: 000000: 0000) 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000006F0 DR0: 0000000000000000 DR1: 000000000000000 DR2: 000000000000000 DR3: 0000000000000000 DR6: 0.0.0 0.000 00000000 DR7ff:0 bd2/fioa1-8 (pid: 3403, info o vláknu ffff880431112000, úkol ffff8804220a4ae0) Zásobník:

V případě jakéhokoli nedávného selhání pevného disku zkontrolujte protokol hades.out.

Pokud je disk metadat SSD, AOS vynutí restartování CVM. Pokud má AOS potíže s odebráním HDD a vynucené odebrání je spuštěno hades, CVM se restartuje.

Výstup ServiceVM.out.0 ( chyba 735768 ):

 BUG jádra na fs/jbd2/commit.c:353! neplatný operační kód: 0000 [#1] SMP poslední soubor sysfs: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/blok/sdc/dev CPU 1

ESXi vmksummary , abyste zjistili, zda se hostitel ESXi restartoval:

 [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: Host se vypíná 2015-02-07T08:43:04Z bootstop: Host se spustil

AHV:

 Protokoly spouštění systému z protokolů auditu na hypervizoru

 11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0" hostitm= addr=? terminál=konzole res=úspěch'
11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc-old_t=exe'level=Nitrc-old_t=exe'0 /sbin/telinit" název hostitele=? addr=? terminal=console res=succe ss'

CVM:

 nutanix@cvm$ sudo grep -i "kmsg zahájen" /home/log/messages 2015-01-30T10:59:39.957663-08:00 NTNX-A-CVM jádro: imklog 5.8.10, zdroj protokolu = /proc/kmsg začala. 2015-02-07T00:46:55.164530-08:00 NTNX-A-CVM jádro: imklog 5.8.10, log source = /proc/kmsg spuštěno.

Přejděte o pár řádků výše, abyste získali další informace:

 nutanix@cvm$ sudo grep -i -B 5 "kmsg zahájen" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM typ 25u74a47dit.25u74 SYSCALL 99): arch =c000003e syscall=90 success=yes exit=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 gid=10 s.00 suid=1000 egid=1000 sgid=1000 fsgid=1000 tty=(žádné) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s023c klíč. perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audiodispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:y00sys=0sys arch.=700 success=700 exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 sg=0 id=1000 s d=1000 fsgid= 1000 tty=(none) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-18-: 00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanixggsonspythonej- -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 režim=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=00:00 obj object_r:user_home_t:s0 nametype=NORMAL

U novějších verzí CVM možná budete muset grep pro "rsyslogd.*start" spíše než "kmsg begin":

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] začátek 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: varování: ~ akce je zastaralá, zvažte místo toho použití příkazu 'stop' [zkuste http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Spuštěna služba protokolování systému.

dodatečné informace

Nutanix KB 1252 - Původní dokument na portálu Nutanix
Vstupní stránka Nutanix
Plán podpory Lenovo ISG – zařízení ThinkAgile HX a Lenovo Converged HX Series

ID dokumentu:HT516509

Datum původního zveřejnění:05/21/2024

Datum poslední úpravy:05/30/2024