Analiza głównych przyczyn ponownego uruchomienia CVM
Analiza głównych przyczyn ponownego uruchomienia CVM
Analiza głównych przyczyn ponownego uruchomienia CVM
Opis
W tym artykule opisano, jak rozwiązywać problemy i przeprowadzać analizę głównych przyczyn, gdy CVM (maszyna wirtualna kontrolera) nagle uruchamia się ponownie.
Dzienniki, których należy szukać w CVM:
dmesg /var/log/messages /home/log/messages (będzie zawierał szczegółowe dzienniki jądra w momencie ponownego uruchomienia).
Dzienniki, których należy szukać na hoście AHV:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
Dzienniki, których należy szukać w ESXi:
/vmfs/volumes/NTNX-local-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksumary.log
Aby sprawdzić wykorzystanie pamięci/procesora/opóźnienie dysku CVM w momencie ponownego uruchomienia, można przejrzeć dzienniki sysstats w katalogu /home/nutanix/data/logs/sysstats . Należy pamiętać, że dzienniki mają znacznik czasu UTC.
/home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO
Rozwiązanie
Przykłady
- Polecenie CVM przy ostatnim ponownym uruchomieniu :
nutanix@cvm$ ostatnie ponowne uruchomienie zrestartuj system boot 2.6.32-279.9.1.e pon. 23 grudnia 09:40 - 12:16 (02:36)
- Loguje się do CVM /var/log/messages i kern.log :
23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Oczekiwanie na utworzenie /dev/fct0 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sondowany fct0 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sektor_size=512 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Urządzenie działa jako urządzenie blokowe. 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ustawianie danych zakresu kanałów na [2 .. 2047] 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *** Wykryto nieczyste zamknięcie, dziennik ponownego skanowania. *** 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** może to zająć kilka minut. *** 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ************************ ****************************** 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Wykryto przerwę w dostawie prądu 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Pomyślnie podłączono ponownie po nieczystym zamknięciu. (AP: 1942+228114432) 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Tworzenie urządzenia blokowego fioa: major: 252 minor: 0 rozmiar sektora: 512... 23 grudnia 09:40:06 Jądro NTNX-CVM-A: fioa: fioa1
- Dzienniki ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
2013-12-23T17:35:25.959Z| vcpu-0| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-2| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-7| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-1| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-5| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-4| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-3| I120: Reset procesora: miękki (tryb 1) 2013-12-23T17:35:25.960Z| vcpu-6| I120: Reset procesora: miękki (tryb 1)
„Uruchom ponownie system operacyjny gościa” w CVM zainicjowanym z vCentre skutkuje następującym podpisem w pliku vmware.log CVM
(Należy pamiętać, że ten wpis nie pojawia się w pliku vmware.log, jeśli CVM został pomyślnie zrestartowany z poziomu klastra Nutanix za pomocą aktualizacji AOS lub polecenia cvm_shutdown)2022-03-01T23:24:30.638Z| vmx| I125: Narzędzia: wysyłanie żądania zmiany stanu „OS_Reboot” (stan = 2).
„Zamknięcie systemu operacyjnego gościa” w CVM zainicjowanym z vCentre skutkuje następującym podpisem w pliku vmware.log CVM
(Należy pamiętać, że ten wpis nie pojawia się w pliku vmware.log, jeśli CVM został pomyślnie zamknięty z poziomu klastra Nutanix za pomocą aktualizacji AOS lub polecenia cvm_shutdown)2022-03-02T00:22:15.448Z| vmx| I125: Narzędzia: wysyłanie żądania zmiany stanu „OS_Halt” (stan = 1).
Inny przykład pliku vmware.log (oparty na błędzie VMware nr 676321):2013-07-17T22:35:53.907Z| vcpu-0| W110: MONITOR PANIKA: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 2013-07-17T22:35:53.907Z| vcpu-0| I120: Zrzut rdzenia z kompilacją 838463 2013-07-17T22:35:53.907Z| vcpu-6| I120: Wychodzenie z vcpu-6 2013-07-17T22:35:53.907Z| vcpu-4| I120: Wychodzenie z vcpu-7 2013-07-17T22:35:53.907Z| vcpu-0| W110: Zapisywanie pliku rdzenia monitora „/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz”
Kolejny vmware.log (błędna konfiguracja EPT - VMware KB 1036775 ):2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIK: błędna konfiguracja vcpu-0:EPT: PA b49b405b0 2013-05-03T17:27:43.262Z| vcpu-1| Zrzut rdzenia z kompilacją build-623860 2013-05-03T17:27:43.262Z| vcpu-1| Zapisywanie pliku rdzenia monitora „/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz” 2013-05-03T17:27:43.262Z| vcpu-6| Wychodzę z vcpu-6
- Dzienniki ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 przedstawiają problem driver jbd2/fio w tym przykładzie:
ostatni plik sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Moduły połączone w: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jbd2/fioa1-8 Tainted: P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
] [ ] JBD2_journal_Commit_Transaction+0x120C/0x14b0 [JBD2] RSP: 0018: FFFF8804330D9800 RCX: 0000000000000000 FF000 RSI: 00000000000286 RDI: FFFF8804330D9800 RBP: FFFF880431113E60 R08: FFFF880028216E90 R09: FFFF880028216F00 R10: 00000000000018: 000000000000000000 R12: 0000000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4E0 R15: FFFF8804330D9898 FS: 000000000000000000 (0000) GS: FFFF880028200000 (0000) 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000000006F0 DR0: 0000000000000000 DR1: 000000000000000 DR2: 000000000000000 DR3: 000000000000000 DR6: 00000000ffff0ff0 DR7: 000000000000400 Proces jb d2/fioa1-8 (pid: 3403, informacje o wątku ffff880431112000, zadanie ffff8804220a4ae0) Stos:
Sprawdź dziennik hades.out w przypadku niedawnej awarii dysku twardego.
Jeśli dysk SSD jest dyskiem metadanych, AOS wymusi ponowne uruchomienie CVM. Ponadto, jeśli AOS ma problemy z usunięciem dysku twardego i wymuszone usunięcie zostanie wywołane przez hades, CVM uruchomi się ponownie.
Dane wyjściowe ServiceVM.out.0 ( Błąd 735768 ):
BŁĄD jądra w fs/jbd2/commit.c:353! nieprawidłowy kod operacji: 0000 [#1] Ostatni plik sysfs SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/block/sdc/dev Procesor 1
ESXi vmksummary , aby sprawdzić, czy host ESXi został ponownie uruchomiony:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: Host wyłącza się 2015-02-07T08:43:04Z bootstop: Host został uruchomiony
AHV:Dzienniki rozruchu systemu z dzienników audytu na hiperwizorze 11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" nazwa hosta=? adres=? terminal=konsola res=sukces' 11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='stary-poziom=N nowy-poziom=3 exe=" /sbin/telinit" nazwa hosta=? adres=? terminal=konsola res=sukces ss'
CVM:nutanix@cvm$ sudo grep -i „kmsg rozpoczęte” /home/log/messages 2015-01-30T10:59:39.957663-08:00 Jądro NTNX-A-CVM: imklog 5.8.10, źródło dziennika = /proc/kmsg Rozpoczęty. 2015-02-07T00:46:55.164530-08:00 Jądro NTNX-A-CVM: imklog 5.8.10, źródło dziennika = uruchomiono /proc/kmsg.
Przewiń kilka linii powyżej, aby uzyskać więcej informacji:nutanix@cvm$ sudo grep -i -B 5 „kmsg rozpoczęte” /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ=SYSCALL msg=audit(1423274402.577:7499): arch =c000003e wywołanie systemowe=90 sukces=tak wyjście=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsu identyfikator=1000 egid=1000 sgid=1000 fsgid=1000 tty=(brak) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ=SYSCALL msg=audit(1423274402.584:7500): arch=c000003e syscall=90 sukces=tak wyjście=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=1 000 fsgid= 1000 tty=(brak) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: węzeł=NTNX-C-CVM typ=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: obiekt_r:user_home_t:s0 typ_nazwy=NORMALNY
W przypadku nowszych wersji CVM może być konieczne skorzystanie z polecenia grep w celu wpisania „rsyslogd.*start” zamiast „kmsg rozpoczęte”:
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info=" www "] początek 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: ostrzeżenie: ~ akcja jest przestarzała, rozważ użycie zamiast tego instrukcji „stop” [spróbuj www ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Uruchomiono usługę rejestrowania systemu.
Dodatkowe informacje
- Nutanix KB 1252 - Oryginalny dokument w portalu Nutanix
- Strona docelowa Nutanix
- Plan wsparcia Lenovo ISG — urządzenie ThinkAgile HX i seria Lenovo Converged HX