Analýza hlavní příčiny restartování CVM

Analýza hlavní příčiny restartování CVM

Analýza hlavní příčiny restartování CVM

Tento článek byl přeložen automatem, původní anglickou verzi zobrazíte kliknutím sem.

Popis

Tento článek popisuje, jak řešit problémy a provádět analýzu hlavní příčiny, když se CVM (Controller VM) náhle restartuje.

Protokoly, které je třeba hledat uvnitř CVM:

 dmesg /var/log/messages /home/log/messages (Bude mít podrobné protokoly jádra v době restartu.)

Protokoly, které je třeba hledat na hostiteli AHV:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

Protokoly, které je třeba hledat uvnitř ESXi:

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
     
    
    
    
   
   
   
  
  
  
 

Chcete-li zkontrolovat využití paměti/procesoru/latenci disku CVM v době restartu, můžete zkontrolovat sysstats v protokolech /home/nutanix/data/logs/sysstats . Všimněte si, že protokoly jsou v časovém razítku UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

Řešení

Příklady

  1. Poslední restart příkazu CVM:
     nutanix@cvm$ poslední restart
    restartování systému boot 2.6.32-279.9.1.e Po 23. prosince 09:40 - 12:16 (02:36)
  1. Přihlášení na CVM /var/log/messages a kern.log :
     23. prosince 09:40:06 NTNX-CVM-A jádro: fioinf Čeká se na vytvoření /dev/fct0
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: probed fct0
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sektor_velikost=512
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Zařízení funguje jako blokové zařízení.
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: nastavení dat rozsahu kanálu na [2 .. 2047]
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** detekováno nečisté vypnutí, opětovné skenování log. ***
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** to může trvat několik minut.              ***
    23. prosince 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ***************************** *********************************
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Bylo zjištěno přerušení napájení
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Úspěšně znovu připojeno po nečistém vypnutí.  (AP: 1942+228114432)
    Dec 23 09:40:06 NTNX-CVM-A jádro: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Vytváření blokového zařízení fioa: major: 252 minor: 0 velikost sektoru: 512...
    23. prosince 09:40:06 NTNX-CVM-A jádro: fioa: fioa1
  1. Protokoly ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
     2013-12-23T17:35:25.959Z| vcpu-0| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-2| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-7| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-1| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-5| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-4| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-3| I120: Reset CPU: měkký (režim 1)
    2013-12-23T17:35:25.960Z| vcpu-6| I120: Reset CPU: měkký (režim 1)

    "Restart hostujícího OS" na CVM iniciovaný z vCentre má za následek následující podpis v cvm vmware.log
    (Všimněte si, že tato položka se v souboru vmware.log nevyskytuje, pokud bylo CVM řádně restartováno z clusteru Nutanix pomocí Upgrade AOS nebo příkazu cvm_shutdown)
     2022-03-01T23:24:30.638Z| vmx| I125: Nástroje: odesílání požadavku na změnu stavu 'OS_Reboot' (stav = 2).
    

    "Vypnutí hostujícího OS" na CVM iniciované z vCentre má za následek následující podpis v cvm vmware.log
    (Všimněte si, že tato položka se v souboru vmware.log nevyskytuje, pokud bylo CVM řádně vypnuto z clusteru Nutanix pomocí Upgrade AOS nebo příkazu cvm_shutdown)
     2022-03-02T00:22:15.448Z| vmx| I125: Nástroje: odeslání požadavku na změnu stavu 'OS_Halt' (stav = 1).
    

    Další příklad vmware.log (založený na chybě VMware č. 676321):
     2013-07-17T22:35:53.907Z| vcpu-0| W110: MONITOR PANIC: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    2013-07-17T22:35:53.907Z| vcpu-0| I120: Výpis jádra se sestavením-838463
    2013-07-17T22:35:53.907Z| vcpu-6| I120: Ukončení vcpu-6
    2013-07-17T22:35:53.907Z| vcpu-4| I120: Ukončení vcpu-7
    2013-07-17T22:35:53.907Z| vcpu-0| W110: Corefile pro zápis monitoru "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
    

    Další vmware.log (chybná konfigurace EPT - VMware KB 1036775 ):
     2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIC: vcpu-0: Špatná konfigurace EPT: PA b49b405b0
    2013-05-03T17:27:43.262Z| vcpu-1| Výpis jádra s buildem-623860
    2013-05-03T17:27:43.262Z| vcpu-1| Zápis základního souboru monitoru "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz"
    2013-05-03T17:27:43.262Z| vcpu-6| Ukončení vcpu-6
    
  1. Protokoly ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 ukazuje problém driver jbd2/fio v tomto příkladu:
     poslední soubor sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Moduly propojené v: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jb-a-1-8------------ .6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
        
        ] [
         
        
         ] JBD2_Journal_Commit_TransAction+0x120C/0x14B0 [JBD2] RSP: 0018: FFFF88043113D30 EFLAGS: 00010246 RAX: 00000000000000: Ffffffff804330D9800 FF000 RSI: 0000000000000286 RDI: FFFF8804330D9800 RBP: FFFF88043113E60 R08: FFFF880028216E90 R09: FFFF880028216F00 R10: 0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000.18000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000. R12: 00000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4AE0 R15: FFFF8804330D9898 FS: 00000000000000 (0000): 000000: 0000 00: 000000: 0000) 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000006F0 DR0: 0000000000000000 DR1: 000000000000000 DR2: 000000000000000 DR3: 0000000000000000 DR6: 0.0.0 0.000 00000000 DR7ff:0 bd2/fioa1-8 (pid: 3403, info o vláknu ffff880431112000, úkol ffff8804220a4ae0) Zásobník:
         
        
        
        
       
  1. V případě jakéhokoli nedávného selhání pevného disku zkontrolujte protokol hades.out.

    Pokud je disk metadat SSD, AOS vynutí restartování CVM. Pokud má AOS potíže s odebráním HDD a vynucené odebrání je spuštěno hades, CVM se restartuje.

    Výstup ServiceVM.out.0 ( chyba 735768 ):

     BUG jádra na fs/jbd2/commit.c:353! neplatný operační kód: 0000 [#1] SMP poslední soubor sysfs: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/blok/sdc/dev CPU 1

    ESXi vmksummary , abyste zjistili, zda se hostitel ESXi restartoval:
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: Host se vypíná 2015-02-07T08:43:04Z bootstop: Host se spustil

    AHV:
     Protokoly spouštění systému z protokolů auditu na hypervizoru
    
     11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0" hostitm= addr=? terminál=konzole res=úspěch'
    11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc-old_t=exe'level=Nitrc-old_t=exe'0 /sbin/telinit" název hostitele=? addr=? terminal=console res=succe ss'
    

    CVM:
     nutanix@cvm$ sudo grep -i "kmsg zahájen" /home/log/messages 2015-01-30T10:59:39.957663-08:00 NTNX-A-CVM jádro: imklog 5.8.10, zdroj protokolu = /proc/kmsg začala. 2015-02-07T00:46:55.164530-08:00 NTNX-A-CVM jádro: imklog 5.8.10, log source = /proc/kmsg spuštěno.

    Přejděte o pár řádků výše, abyste získali další informace:
     nutanix@cvm$ sudo grep -i -B 5 "kmsg zahájen" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM typ 25u74a47dit.25u74 SYSCALL 99): arch =c000003e syscall=90 success=yes exit=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 gid=10 s.00 suid=1000 egid=1000 sgid=1000 fsgid=1000 tty=(žádné) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s023c klíč. perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audiodispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:y00sys=0sys arch.=700 success=700 exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 sg=0 id=1000 s d=1000 fsgid= 1000 tty=(none) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-18-: 00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanixggsonspythonej- -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 režim=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=00:00 obj object_r:user_home_t:s0 nametype=NORMAL

U novějších verzí CVM možná budete muset grep pro "rsyslogd.*start" spíše než "kmsg begin":

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] začátek 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: varování: ~ akce je zastaralá, zvažte místo toho použití příkazu 'stop' [zkuste http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Spuštěna služba protokolování systému.

dodatečné informace

ID dokumentu:HT516509
Datum původního zveřejnění:05/21/2024
Datum poslední úpravy:05/30/2024