Ursachenanalyse für CVM-Neustarts
Ursachenanalyse für CVM-Neustarts
Ursachenanalyse für CVM-Neustarts
Beschreibung
In diesem Artikel wird beschrieben, wie Sie Probleme beheben und eine Ursachenanalyse durchführen, wenn eine CVM (Controller-VM) plötzlich neu gestartet wird.
Im CVM zu suchende Protokolle:
dmesg /var/log/messages /home/log/messages (Verfügt zum Zeitpunkt des Neustarts über die detaillierten Kernel-Protokolle.)
Auf dem AHV-Host zu suchende Protokolle:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
Zu suchende Protokolle innerhalb des ESXi:
/vmfs/volumes/NTNX-local-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
Um die Speicher-/CPU-Auslastung/Festplattenlatenz des CVM zum Zeitpunkt des Neustarts zu überprüfen, können die Sysstats-Protokolle unter /home/nutanix/data/logs/sysstats überprüft werden. Beachten Sie, dass die Protokolle den UTC-Zeitstempel haben.
/home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO
Lösung
Beispiele
- CVM-Befehl letzter Neustart :
nutanix@cvm$ letzter Neustart System neu starten 2.6.32-279.9.1.e Montag, 23. Dezember 09:40 - 12:16 (02:36)
- Protokolle auf CVM /var/log/messages und kern.log :
23. Dez 09:40:06 NTNX-CVM-A-Kernel: fioinf Wartet auf die Erstellung von /dev/fct0 23. Dez 09:40:06 NTNX-CVM-A Kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: geprüft fct0 23. Dez 09:40:06 NTNX-CVM-A Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Sektorgröße = 512 23. Dez. 09:40:06 NTNX-CVM-A-Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Das Gerät wird als Blockgerät betrieben. 23. Dez 09:40:06 NTNX-CVM-A Kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Kanalbereichsdaten werden auf [2 .. 2047] gesetzt 23. Dez 09:40:06 NTNX-CVM-A Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *** unsauberes Herunterfahren erkannt, Protokoll wird erneut gescannt. *** 23. Dez 09:40:06 NTNX-CVM-A-Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *** dies kann mehrere Minuten dauern. *** 23. Dez 09:40:06 NTNX-CVM-A-Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *************************************************** 23. Dez 09:40:06 NTNX-CVM-A Kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Stromausfall erkannt 23. Dez 09:40:06 NTNX-CVM-A-Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Nach unsauberem Herunterfahren erfolgreich wieder angeschlossen. (AP: 1942+228114432) 23. Dez. 09:40:06 NTNX-CVM-A-Kernel: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Blockgerät wird erstellt fioa: Hauptversion: 252 Nebenversion: 0 Sektorgröße: 512 … 23. Dez 09:40:06 NTNX-CVM-A Kernel: fioa: fioa1
- ESXi-Protokolle /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
2013-12-23T17:35:25.959Z| vcpu-0| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-2| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-7| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-1| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-5| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-4| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-3| I120: CPU-Reset: Soft (Modus 1) 2013-12-23T17:35:25.960Z| vcpu-6| I120: CPU-Reset: Soft (Modus 1)
"Gastbetriebssystem neu starten" auf CVM, initiiert von vCentre, führt zu folgender Signatur im vmware.log des CVM
(Beachten Sie, dass dieser Eintrag nicht im vmware.log auftritt, wenn das CVM innerhalb des Nutanix-Clusters über ein AOS-Upgrade oder den Befehl cvm_shutdown ordnungsgemäß neu gestartet wurde.)2022-03-01T23:24:30.638Z| vmx| I125: Tools: Senden einer Statusänderungsanforderung für „OS_Reboot“ (Status = 2)
"Gastbetriebssystem herunterfahren" auf CVM, das von vCentre aus initiiert wird, führt zu folgender Signatur im vmware.log des CVM
(Beachten Sie, dass dieser Eintrag nicht im vmware.log auftritt, wenn das CVM innerhalb des Nutanix-Clusters über ein AOS-Upgrade oder den Befehl cvm_shutdown ordnungsgemäß heruntergefahren wurde.)2022-03-02T00:22:15.448Z| vmx| I125: Tools: Senden einer Statusänderungsanforderung für „OS_Halt“ (Status = 1)
Ein weiteres Beispiel für vmware.log (basierend auf VMware-Fehler Nr. 676321):2013-07-17T22:35:53.907Z| vcpu-0| W110: MONITOR PANIC: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 2013-07-17T22:35:53.907Z| vcpu-0| I120: Core Dump mit Build Build-838463 2013-07-17T22:35:53.907Z| vcpu-6| I120: vcpu-6 wird beendet 2013-07-17T22:35:53.907Z| vcpu-4| I120: vcpu-7 wird beendet 2013-07-17T22:35:53.907Z| vcpu-0| W110: Monitor-Corefile „/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz“ wird geschrieben
Ein weiteres vmware.log (EPT-Fehlkonfiguration – VMware KB 1036775 ):2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIC: vcpu-0:EPT-Fehlkonfiguration: PA b49b405b0 2013-05-03T17:27:43.262Z| vcpu-1| Core Dump mit Build Build-623860 2013-05-03T17:27:43.262Z| vcpu-1| Monitor-Corefile "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz" wird geschrieben 2013-05-03T17:27:43.262Z| vcpu-6| vcpu-6 wird beendet
- ESXi-Protokolle /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 zeigen in diesem Beispiel ein Problem mit dem jbd2/fio- driver :
letzte Sysfs-Datei: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Eingebundene Module: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jbd2/fioa1-8 Befleckt: P --------------- 2.6.32-279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
] [ ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP: 0018:ffff880431113d30 EFLAGS: 00010246 RAX: 0000000000000008 RBX: ffff8804330d9800 RCX: 0000000000000000 RDX: ffff8804060ff000 RSI: 0000000000000286 RDI: ffff8804330d9800 RBP: ffff880431113e60 R08: ffff880028216e90 R09: ffff880028216f00 R10: 0000000000000018 R11: 0000000000000000 R12: 0000000000000000 R13: ffff8804330d9800 R14: ffff8804220a4ae0 R15: ffff8804330d9898 FS: 000000000000000(0000) GS:ffff880028200000(0000) knlGS:0000000000000000 CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b CR2: 00007fbeca8a4916 CR3: 0000000378ef3000 CR4: 00000000000006f0 DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Prozess jbd2/fioa1-8 (pid: 3403, Threadinfo ffff880431112000, Task ffff8804220a4ae0) Stapel:
Überprüfen Sie das hades.out-Protokoll auf aktuelle Festplattenfehler.
Wenn die SSD das Metadatenlaufwerk ist, erzwingt AOS einen Neustart des CVM. Wenn AOS Probleme beim Entfernen einer Festplatte hat und eine erzwungene Entfernung durch hades ausgelöst wird, wird ein Neustart des CVM durchgeführt.
Die Ausgabe von ServiceVM.out.0 ( Fehler 735768 ):
Kernel-Fehler bei fs/jbd2/commit.c:353! Ungültiger Opcode: 0000 [#1] SMP letzte Sysfs-Datei: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2:0:2/2:0:2:0/block/sdc/dev CPU 1
ESXi vmksummary, um zu sehen, ob der ESXi-Host neu gestartet wurde:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z Bootstop: Host wird ausgeschaltet 2015-02-07T08:43:04Z Bootstop: Host wurde gebootet
AHV:Systemstartprotokolle aus Audit-Protokollen auf dem Hypervisor 11277 Typ=SYSTEM_BOOT Nachricht=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 Betreff=system_u:system_r:initrc_t:s0 Nachricht='init exe="/sbin/telinit" Hostname=? Adresse=? Terminal=Konsole Res=erfolgreich' 11278 Typ=SYSTEM_RUNLEVEL Nachricht=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 Nachricht='alte Ebene=N neue Ebene=3 exe="/sbin/telinit" Hostname=? Adresse=? Terminal=Konsole Res=erfolgreich ss'
Lebenslauf:nutanix@cvm$ sudo grep -i "kmsg gestartet" /home/log/messages 2015-01-30T10:59:39.957663-08:00 NTNX-A-CVM-Kernel: imklog 5.8.10, Protokollquelle = /proc/kmsg gestartet. 2015-02-07T00:46:55.164530-08:00 NTNX-A-CVM-Kernel: imklog 5.8.10, Protokollquelle = /proc/kmsg gestartet.
Scrollen Sie ein paar Zeilen nach oben, um weitere Informationen zu erhalten:nutanix@cvm$ sudo grep -i -B 5 "kmsg gestartet" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: Knoten=NTNX-C-CVM Typ=EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: Knoten=NTNX-C-CVM Typ=SYSCALL msg=audit(1423274402.577:7499): arch=c000003e syscall=90 Erfolg=ja exit=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 Elemente=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=1000 fsgid=1000 tty=(keine) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: Knoten=NTNX-C-CVM Typ=SYSCALL msg=audit(1423274402.584:7500): Arch=c000003e Syscall=90 Erfolg=ja Exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 Elemente=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=1000 fsgid=1000 tty=(keine) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 Schlüssel="perm_mod" 2015-02-06T18:00:02.585392-08:00 NTNX-C-CVM audispd: Knoten=NTNX-C-CVM Typ=PATH Nachricht=audit(1423274402.584:7500): Element=0 Name="/home/nutanix/.python-eggs/simplejson-3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 Modus=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u:object_r:user_home_t:s0 nametype=NORMAL
Bei neueren Versionen von CVM müssen Sie möglicherweise nach „rsyslogd.*start“ statt nach „kmsg started“ suchen:
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion="7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] start 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: Warnung: ~ Aktion ist veraltet, verwenden Sie stattdessen die Anweisung „stop“ [versuchen Sie es mit http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd[1]: Systemprotokollierungsdienst gestartet.
Weitere Informationen
- Nutanix KB 1252 – Originaldokument im Nutanix Portal
- Nutanix-Landingpage
- Lenovo ISG-Supportplan – ThinkAgile HX Appliance und Lenovo Converged HX Series