Analisis Akar Penyebab Reboot CVM
Analisis Akar Penyebab Reboot CVM
Analisis Akar Penyebab Reboot CVM
Keterangan
Artikel ini menjelaskan cara memecahkan masalah dan melakukan analisis akar masalah ketika CVM (Controller VM) tiba-tiba melakukan boot ulang.
Log yang harus dicari di dalam CVM:
dmesg /var/log/messages /home/log/messages (Akan memiliki log kernel terperinci pada saat reboot.)
Log yang harus dicari pada host AHV:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
Log yang harus dicari di dalam ESXi:
/vmfs/volumes/NTNX-local-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
Untuk meninjau latensi memori/cpu/disk CVM pada saat reboot, sysstats di bawah log /home/nutanix/data/logs/sysstats dapat ditinjau. Perhatikan bahwa log berada dalam stempel waktu UTC.
/home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO
Larutan
Contoh
- Perintah CVM reboot terakhir :
nutanix@cvm$ reboot terakhir reboot boot sistem 2.6.32-279.9.1.e Sen 23 Des 09:40 - 12:16 (02:36)
- Masuk ke CVM /var/log/messages dan kern.log :
23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Menunggu /dev/fct0 dibuat 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: diperiksa fct0 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: sector_size=512 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Perangkat beroperasi sebagai perangkat blok. 23 Des 09:40:06 NTNX-CVM-A kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: menyetel data rentang saluran ke [2 .. 2047] 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** shutdown yang tidak bersih terdeteksi, pemindaian ulang log. *** 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** ini mungkin memakan waktu beberapa menit. *** 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: ************************ *************************** 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Pemutusan listrik terdeteksi 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Berhasil disambungkan kembali setelah pematian yang tidak bersih. (AP: 1942+228114432) 23 Des 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Membuat perangkat blok fioa: mayor: 252 minor: 0 ukuran sektor: 512... 23 Des 09:40:06 Kernel NTNX-CVM-A: fioa: fioa1
- Log ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
23-12-2013T17:35:25.959Z| vcpu-0| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-2| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-7| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-1| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-5| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-4| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-3| I120: Reset CPU: lunak (mode 1) 23-12-2013T17:35:25.960Z| vcpu-6| I120: Reset CPU: lunak (mode 1)
"Restart OS Tamu" pada CVM yang dimulai dari vCentre menghasilkan tanda tangan berikut di vmware.log cvm
(Perhatikan bahwa entri ini tidak muncul di vmware.log jika CVM telah di-restart dengan baik dari dalam Cluster Nutanix melalui perintah AOS Upgrade atau cvm_shutdown)01-03-2022T23:24:30.638Z| vmx| I125: Alat: mengirimkan permintaan perubahan status 'OS_Reboot' (status = 2).
"Shutdown Guest OS" pada CVM yang dimulai dari vCentre menghasilkan tanda tangan berikut di vmware.log cvm
(Perhatikan bahwa entri ini tidak muncul di vmware.log jika CVM telah dimatikan dengan baik dari dalam Cluster Nutanix melalui perintah AOS Upgrade atau cvm_shutdown)02-03-2022T00:22:15.448Z| vmx| I125: Alat: mengirimkan permintaan perubahan status 'OS_Halt' (status = 1).
Contoh lain dari vmware.log (berdasarkan bug VMware nr. 676321):17-07-2013T22:35:53.907Z| vcpu-0| W110: MONITOR PANIC: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 17-07-2013T22:35:53.907Z| vcpu-0| I120: Core dump dengan build build-838463 17-07-2013T22:35:53.907Z| vcpu-6| I120: Keluar dari vcpu-6 17-07-2013T22:35:53.907Z| vcpu-4| I120: Keluar dari vcpu-7 17-07-2013T22:35:53.907Z| vcpu-0| W110: Menulis file inti monitor "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
vmware.log lainnya (kesalahan konfigurasi EPT - VMware KB 1036775 ):03-05-2013T17:27:43.262Z| vcpu-1| MONITOR PANIC: vcpu-0: Kesalahan konfigurasi EPT: PA b49b405b0 03-05-2013T17:27:43.262Z| vcpu-1| Pembuangan inti dengan build build-623860 03-05-2013T17:27:43.262Z| vcpu-1| Menulis file inti monitor "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz" 03-05-2013T17:27:43.262Z| vcpu-6| Keluar dari vcpu-6
- Log ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 menunjukkan masalah driver jbd2/fio dalam contoh ini:
file sysfs terakhir: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Modul tertaut di: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jbd2/fioa1-8 Tercemar: P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. Platform Virtual VMware/Desktop 440BX RIP: 0010:[
] [ ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP: 0018:ffff880431113d30 EFLAGS: 00010246 RAX: 0000000000000008 RBX: ffff8804330d9800 RCX: 0000000 000000000 RDX: ffff8804060ff000 RSI: 0000000000000286 RDI: ffff8804330d9800 RBP: ffff880431113e60 R08: ffff880028216e90 R09: ffff880028216f00 R10: 0000000000000018 R11: 0000000000000000 R12: 0000000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4AE0 R15: FFFF8804330D9898 FS: 00000000000000 000000) GS: FFFF8898 0000000000 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000000006F0 DR0: 0000000000000000 DR1: 0000000000000000 DR2: 00000000000000000 DR3: 000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Proses jbd 2/fioa1-8 (pid: 3403, threadinfo ffff880431112000, tugas ffff8804220a4ae0) Tumpukan:
Untuk setiap kegagalan hard drive baru-baru ini, periksa log hades.out.
Jika SSD adalah drive metadata, AOS akan memaksa CVM untuk melakukan boot ulang. Selain itu, jika AOS mengalami kesulitan saat melepas HDD dan penghapusan paksa dipicu oleh hades, CVM akan di-boot ulang.
Output dari ServiceVM.out.0 ( Bug 735768 ):
kernel BUG di fs/jbd2/commit.c:353! opcode tidak valid: 0000 [#1] File sysfs terakhir SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/block/sdc/dev CPU 1
ESXi vmksummary untuk melihat apakah host ESXi di-boot ulang:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 07-02-2015T02:54:17Z bootstop: Host mati 07-02-2015T08:43:04Z bootstop: Host telah melakukan booting
Ahv:Log Boot Sistem dari log Audit di hypervisor 11277 ketik=SYSTEM_BOOT pesan=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" nama host=? tambahan=? terminal=konsol res=sukses' 11278 type=SYSTEM_RUNLEVEL pesan=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N level baru=3 exe=" /sbin/telinit" nama host=? tambahan=? terminal=konsol res=sukses ss'
CVM:nutanix@cvm$ sudo grep -i "kmsg dimulai" /home/log/messages 30-01-2015T10:59:39.957663-08:00 Kernel NTNX-A-CVM: imklog 5.8.10, sumber log = /proc/kmsg dimulai. 07-02-2015T00:46:55.164530-08:00 Kernel NTNX-A-CVM: imklog 5.8.10, sumber log = /proc/kmsg dimulai.
Gulir beberapa baris di atas untuk mendapatkan informasi lebih lanjut:nutanix@cvm$ sudo grep -i -B 5 "kmsg dimulai" /home/log/messages 06-02-2015T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= Pesan EOE=audit(1423274402.537:7498): 06-02-2015T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL pesan=audit(1423274402.577:7499): arch =c000003e syscall=90 sukses=ya keluar=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 item=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=10 00 egid=1000 sgid=1000 fsgid=1000 tty=(tidak ada) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 06-02-2015T18:00:02.585360-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL pesan=audit(1423274402.584:7500): arch=c000003e syscall=90 sukses=yes keluar=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 item=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=10 00 fsgid= 1000 tty=(tidak ada) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 06-02-2015T18: 00:02.585392-08:00 Audispd NTNX-C-CVM: node=NTNX-C-CVM type=PATH pesan=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: objek_r:user_home_t:s0 tipe nama=NORMAL
Untuk versi CVM yang lebih baru, Anda mungkin harus memilih "rsyslogd.*start" daripada "kmsg dimulai":
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 06-03-2018T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [perangkat lunak asal = "rsyslogd" swVersion = " 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] mulai 06-03-2018T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: peringatan: ~ tindakan tidak digunakan lagi, pertimbangkan untuk menggunakan pernyataan 'stop' sebagai gantinya [coba http:// www .rsyslog.com/e/2307 ] 06-03-2018T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Memulai Layanan Pencatatan Sistem.
informasi tambahan
- Nutanix KB 1252 - Dokumen asli di Portal Nutanix
- Halaman arahan Nutanix
- Paket Dukungan Lenovo ISG - ThinkAgile HX Appliance dan Lenovo Converged HX Series