Análisis de la causa raíz de los reinicios de CVM
Análisis de la causa raíz de los reinicios de CVM
Análisis de la causa raíz de los reinicios de CVM
Descripción
Este artículo describe cómo solucionar problemas y realizar un análisis de la causa raíz cuando un CVM (controlador VM) se reinicia repentinamente.
Registros a buscar dentro del CVM:
dmesg /var/log/messages /home/log/messages (Tendrá los registros detallados del kernel en el momento del reinicio).
Registros a buscar en el host AHV:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
Registros a buscar dentro de ESXi:
/vmfs/volumes/NTNX-local-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
Para revisar la memoria/el uso de la CPU/la latencia del disco del CVM en el momento del reinicio, se pueden revisar los registros de sysstats en /home/nutanix/data/logs/sysstats . Tenga en cuenta que los registros están en marca de tiempo UTC.
/home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO
Solución
Ejemplos
- Último reinicio del comando CVM:
nutanix@cvm$ último reinicio reiniciar el sistema de arranque 2.6.32-279.9.1.e lunes 23 de diciembre 09:40 - 12:16 (02:36)
- Inicia sesión en CVM /var/log/messages y kern.log :
23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Esperando que se cree /dev/fct0 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: fct0 probado 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sector_size=512 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: El dispositivo funciona como un dispositivo de bloque. 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: configuración de datos de rango de canales en [2 .. 2047] 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** Se detectó un apagado incorrecto, se volvió a escanear el registro. *** 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** esto puede tardar varios minutos. *** 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: ************************ **************************** 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Se detectó corte de energía 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: se volvió a conectar correctamente después de un apagado incorrecto. (AP:1942+228114432) 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Creando dispositivo de bloque fioa: mayor: 252 menor: 0 tamaño del sector: 512... 23 de diciembre 09:40:06 Kernel NTNX-CVM-A: fioa: fioa1
- Registros de ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
2013-12-23T17:35:25.959Z| CPU-0| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-2| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-7| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-1| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-5| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-4| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-3| I120: reinicio de CPU: suave (modo 1) 2013-12-23T17:35:25.960Z| vcpu-6| I120: reinicio de CPU: suave (modo 1)
"Reiniciar el sistema operativo invitado" en CVM iniciado desde vCentre da como resultado la siguiente firma en vmware.log del cvm
(Tenga en cuenta que esta entrada no aparece en vmware.log si el CVM se ha reiniciado correctamente desde el clúster Nutanix mediante la actualización de AOS o el comando cvm_shutdown)2022-03-01T23:24:30.638Z| vmx| I125: Herramientas: enviando solicitud de cambio de estado 'OS_Reboot' (estado = 2)
"Apagar el sistema operativo invitado" en CVM iniciado desde vCentre da como resultado la siguiente firma en vmware.log del cvm
(Tenga en cuenta que esta entrada no aparece en vmware.log si el CVM se apagó correctamente desde el clúster Nutanix mediante la actualización de AOS o el comando cvm_shutdown)2022-03-02T00:22:15.448Z| vmx| I125: Herramientas: enviando solicitud de cambio de estado 'OS_Halt' (estado = 1)
Otro ejemplo de vmware.log (basado en el error n.º 676321 de VMware):2013-07-17T22:35:53.907Z| CPU-0| W110: MONITOREO DE PÁNICO: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 2013-07-17T22:35:53.907Z| CPU-0| I120: Volcado de núcleo con compilación build-838463 2013-07-17T22:35:53.907Z| vcpu-6| I120: Saliendo de vcpu-6 2013-07-17T22:35:53.907Z| vcpu-4| I120: Saliendo de vcpu-7 2013-07-17T22:35:53.907Z| CPU-0| W110: Escritura del archivo central del monitor "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
Otro vmware.log (configuración incorrecta de EPT - VMware KB 1036775 ):2013-05-03T17:27:43.262Z| vcpu-1| MONITOREAR PÁNICO: vcpu-0:EPT configuración incorrecta: PA b49b405b0 2013-05-03T17:27:43.262Z| vcpu-1| Volcado de núcleo con compilación build-623860 2013-05-03T17:27:43.262Z| vcpu-1| Escritura del archivo central del monitor "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz" 2013-05-03T17:27:43.262Z| vcpu-6| Saliendo de vcpu-6
- Los registros de ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 muestran el problema driver jbd2/fio en este ejemplo:
último archivo sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Módulos vinculados en: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jbd2/fioa1-8 Contaminado: P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. Plataforma virtual VMware/440BX Desktop RIP: 0010:[
] [ ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP: 0018:ffff880431113d30 EFLAGS: 00010246 RAX: 0000000000000008 RBX: ffff8804330d9800 RCX: 000000000 RDX: ffff8804060ff000 RSI: 0000000000000286 RDI: ffff8804330d9800 RBP: ffff880431113e60 R08: ffff880028216e90 R09: ffff880028216f00 : 0000000000000018 R11: 0000000000000000 R12: 000000000000000000 R13: FFFFF8804330D9800 R14: FFFFFF8804220A4AE0 R15: FFFFFF8804330D9898 FS: 0000000000000000000000) GS: FFFFF880028200000 (0000) 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000000006F0 DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Proceso jbd2/fioa1 -8 (pid: 3403, threadinfo ffff880431112000, tarea ffff8804220a4ae0) Pila:
Para cualquier falla reciente en el disco duro, consulte el registro de hades.out.
Si el SSD es la unidad de metadatos, AOS forzará el reinicio de un CVM. Además, si AOS tiene problemas para eliminar un disco duro y Hades activa una eliminación forzada, un CVM se reiniciará.
La salida de ServiceVM.out.0 ( error 735768 ):
¡ERROR del kernel en fs/jbd2/commit.c:353! código de operación no válido: 0000 [#1] Último archivo sysfs SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/bloque/sdc/dev CPU 1
ESXi vmksummary para ver si el host ESXi se reinició:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: el host se está apagando 2015-02-07T08:43:04Z bootstop: el host ha arrancado
AHV:Registros de arranque del sistema desde registros de auditoría en el hipervisor 11277 tipo=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" hostname=? dirección=? terminal=consola res=éxito' 11278 tipo=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N new-level=3 exe=" /sbin/telinit" nombre de host=? dirección=? terminal=consola res=éxito'
CVM:nutanix@cvm$ sudo grep -i "kmsg iniciado" /home/log/messages 2015-01-30T10:59:39.957663-08:00 Kernel NTNX-A-CVM: imklog 5.8.10, fuente de registro = /proc/kmsg comenzó. 2015-02-07T00:46:55.164530-08:00 Kernel NTNX-A-CVM: imklog 5.8.10, fuente de registro = /proc/kmsg iniciado.
Desplázate unas líneas más arriba para tener más información:nutanix@cvm$ sudo grep -i -B 5 "kmsg iniciado" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: nodo=NTNX-C-CVM tipo= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: nodo=NTNX-C-CVM tipo=SYSCALL msg=audit(1423274402.577:7499): arch =c000003e syscall=90 Success=yes exit=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1 000 egid=1000 sgid=1000 fsgid=1000 tty=(none) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: nodo=NTNX-C-CVM tipo=SYSCALL msg=audit(1423274402.584:7500): arch=c000003e syscall=90 Success=yes exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 000 fsgid= 1000 tty=(none) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: nodo=NTNX-C-CVM tipo=PATH msg=auditoría(1423274402.584:7500): elemento=0 nombre="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: object_r:user_home_t:s0 tipo de nombre=NORMAL
Para versiones más recientes de CVM, es posible que deba buscar "rsyslogd.*start" en lugar de "kmsg iniciado":
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] inicio 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: Advertencia: ~ la acción está obsoleta, considere usar la declaración 'detener' en su lugar [pruebe http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Servicio de registro del sistema iniciado.
información adicional
- Nutanix KB 1252 - Documento original en Nutanix Portal
- Página de inicio de Nutanix
- Plan de soporte Lenovo ISG: dispositivo ThinkAgile HX y serie Lenovo Converged HX