Analiza głównych przyczyn ponownego uruchomienia CVM

Analiza głównych przyczyn ponownego uruchomienia CVM

Analiza głównych przyczyn ponownego uruchomienia CVM

Ten artykuł został przetłumaczony maszynowo. Aby wyświetlić oryginalną wersję anglojęzyczną, kliknij tutaj.

Opis

W tym artykule opisano, jak rozwiązywać problemy i przeprowadzać analizę głównych przyczyn, gdy CVM (maszyna wirtualna kontrolera) nagle uruchamia się ponownie.

Dzienniki, których należy szukać w CVM:

 dmesg /var/log/messages /home/log/messages (będzie zawierał szczegółowe dzienniki jądra w momencie ponownego uruchomienia).

Dzienniki, których należy szukać na hoście AHV:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

Dzienniki, których należy szukać w ESXi:

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksumary.log
     
    
    
    
   
   
   
  
  
  
 

Aby sprawdzić wykorzystanie pamięci/procesora/opóźnienie dysku CVM w momencie ponownego uruchomienia, można przejrzeć dzienniki sysstats w katalogu /home/nutanix/data/logs/sysstats . Należy pamiętać, że dzienniki mają znacznik czasu UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

Rozwiązanie

Przykłady

  1. Polecenie CVM przy ostatnim ponownym uruchomieniu :
     nutanix@cvm$ ostatnie ponowne uruchomienie
    zrestartuj system boot 2.6.32-279.9.1.e pon. 23 grudnia 09:40 - 12:16 (02:36)
  1. Loguje się do CVM /var/log/messages i kern.log :
     23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Oczekiwanie na utworzenie /dev/fct0
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sondowany fct0
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sektor_size=512
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Urządzenie działa jako urządzenie blokowe.
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ustawianie danych zakresu kanałów na [2 .. 2047]
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *** Wykryto nieczyste zamknięcie, dziennik ponownego skanowania. ***
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** może to zająć kilka minut.              ***
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ************************ ******************************
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Wykryto przerwę w dostawie prądu
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Pomyślnie podłączono ponownie po nieczystym zamknięciu.  (AP: 1942+228114432)
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Tworzenie urządzenia blokowego fioa: major: 252 minor: 0 rozmiar sektora: 512...
    23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioa: fioa1
  1. Dzienniki ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
     2013-12-23T17:35:25.959Z| vcpu-0| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-2| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-7| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-1| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-5| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-4| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-3| I120: Reset procesora: miękki (tryb 1)
    2013-12-23T17:35:25.960Z| vcpu-6| I120: Reset procesora: miękki (tryb 1)

    „Uruchom ponownie system operacyjny gościa” w CVM zainicjowanym z vCentre skutkuje następującym podpisem w pliku vmware.log CVM
    (Należy pamiętać, że ten wpis nie pojawia się w pliku vmware.log, jeśli CVM został pomyślnie zrestartowany z poziomu klastra Nutanix za pomocą aktualizacji AOS lub polecenia cvm_shutdown)
     2022-03-01T23:24:30.638Z| vmx| I125: Narzędzia: wysyłanie żądania zmiany stanu „OS_Reboot” (stan = 2).
    

    „Zamknięcie systemu operacyjnego gościa” w CVM zainicjowanym z vCentre skutkuje następującym podpisem w pliku vmware.log CVM
    (Należy pamiętać, że ten wpis nie pojawia się w pliku vmware.log, jeśli CVM został pomyślnie zamknięty z poziomu klastra Nutanix za pomocą aktualizacji AOS lub polecenia cvm_shutdown)
     2022-03-02T00:22:15.448Z| vmx| I125: Narzędzia: wysyłanie żądania zmiany stanu „OS_Halt” (stan = 1).
    

    Inny przykład pliku vmware.log (oparty na błędzie VMware nr 676321):
     2013-07-17T22:35:53.907Z| vcpu-0| W110: MONITOR PANIKA: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    2013-07-17T22:35:53.907Z| vcpu-0| I120: Zrzut rdzenia z kompilacją 838463
    2013-07-17T22:35:53.907Z| vcpu-6| I120: Wychodzenie z vcpu-6
    2013-07-17T22:35:53.907Z| vcpu-4| I120: Wychodzenie z vcpu-7
    2013-07-17T22:35:53.907Z| vcpu-0| W110: Zapisywanie pliku rdzenia monitora „/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz”
    

    Kolejny vmware.log (błędna konfiguracja EPT - VMware KB 1036775 ):
     2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIK: błędna konfiguracja vcpu-0:EPT: PA b49b405b0
    2013-05-03T17:27:43.262Z| vcpu-1| Zrzut rdzenia z kompilacją build-623860
    2013-05-03T17:27:43.262Z| vcpu-1| Zapisywanie pliku rdzenia monitora „/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz”
    2013-05-03T17:27:43.262Z| vcpu-6| Wychodzę z vcpu-6
    
  1. Dzienniki ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 przedstawiają problem driver jbd2/fio w tym przykładzie:
     ostatni plik sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Moduły połączone w: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jbd2/fioa1-8 Tainted: P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
        
        ] [
         
        
         ] JBD2_journal_Commit_Transaction+0x120C/0x14b0 [JBD2] RSP: 0018: FFFF8804330D9800 RCX: 0000000000000000 FF000 RSI: 00000000000286 RDI: FFFF8804330D9800 RBP: FFFF880431113E60 R08: FFFF880028216E90 R09: FFFF880028216F00 R10: 00000000000018: 000000000000000000 R12: 0000000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4E0 R15: FFFF8804330D9898 FS: 000000000000000000 (0000) GS: FFFF880028200000 (0000) 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000000006F0 DR0: 0000000000000000 DR1: 000000000000000 DR2: 000000000000000 DR3: 000000000000000 DR6: 00000000ffff0ff0 DR7: 000000000000400 Proces jb d2/fioa1-8 (pid: 3403, informacje o wątku ffff880431112000, zadanie ffff8804220a4ae0) Stos:
         
        
        
        
       
  1. Sprawdź dziennik hades.out w przypadku niedawnej awarii dysku twardego.

    Jeśli dysk SSD jest dyskiem metadanych, AOS wymusi ponowne uruchomienie CVM. Ponadto, jeśli AOS ma problemy z usunięciem dysku twardego i wymuszone usunięcie zostanie wywołane przez hades, CVM uruchomi się ponownie.

    Dane wyjściowe ServiceVM.out.0 ( Błąd 735768 ):

     BŁĄD jądra w fs/jbd2/commit.c:353! nieprawidłowy kod operacji: 0000 [#1] Ostatni plik sysfs SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/block/sdc/dev Procesor 1

    ESXi vmksummary , aby sprawdzić, czy host ESXi został ponownie uruchomiony:
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: Host wyłącza się 2015-02-07T08:43:04Z bootstop: Host został uruchomiony

    AHV:
     Dzienniki rozruchu systemu z dzienników audytu na hiperwizorze
    
     11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" nazwa hosta=? adres=? terminal=konsola res=sukces'
    11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='stary-poziom=N nowy-poziom=3 exe=" /sbin/telinit" nazwa hosta=? adres=? terminal=konsola res=sukces ss'
    

    CVM:
     nutanix@cvm$ sudo grep -i „kmsg rozpoczęte” /home/log/messages 2015-01-30T10:59:39.957663-08:00 Jądro NTNX-A-CVM: imklog 5.8.10, źródło dziennika = /proc/kmsg Rozpoczęty. 2015-02-07T00:46:55.164530-08:00 Jądro NTNX-A-CVM: imklog 5.8.10, źródło dziennika = uruchomiono /proc/kmsg.

    Przewiń kilka linii powyżej, aby uzyskać więcej informacji:
     nutanix@cvm$ sudo grep -i -B 5 „kmsg rozpoczęte” /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ=SYSCALL msg=audit(1423274402.577:7499): arch =c000003e wywołanie systemowe=90 sukces=tak wyjście=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsu identyfikator=1000 egid=1000 sgid=1000 fsgid=1000 tty=(brak) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ=SYSCALL msg=audit(1423274402.584:7500): arch=c000003e syscall=90 sukces=tak wyjście=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=1 000 fsgid= 1000 tty=(brak) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: obiekt_r:user_home_t:s0 typ_nazwy=NORMALNY

W przypadku nowszych wersji CVM może być konieczne skorzystanie z polecenia grep w celu wpisania „rsyslogd.*start” zamiast „kmsg rozpoczęte”:

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info=" www "] początek 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: ostrzeżenie: ~ akcja jest przestarzała, rozważ użycie zamiast tego instrukcji „stop” [spróbuj www ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Uruchomiono usługę rejestrowania systemu.

Dodatkowe informacje

Identyfikatof dokumentu :HT516509
Data pierwszej publikacji:05/21/2024
Data ostatniej modyfikacji:05/30/2024