CVM 重启根本原因分析
CVM 重启根本原因分析
CVM 重启根本原因分析
描述
本文介绍当 CVM(控制器虚拟机)突然重启时如何排除故障并进行根本原因分析。
在 CVM 内部查找的日志:
dmesg /var/log/messages /home/log/messages(重启时会有详细的内核日志。)
要在 AHV 主机上查找的日志:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
在 ESXi 内部查找的日志:
/vmfs/volumes/NTNX-本地-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
要查看重启时 CVM 的内存/CPU 使用情况/磁盘延迟,可以查看/home/nutanix/data/logs/sysstats日志下的 sysstats。请注意,日志采用 UTC 时间戳。
/home/nutanix/data/logs/sysstats/meminfo.INFO
/主页/nutanix/data/logs/sysstats/mpstat.INFO
/主页/nutanix/data/logs/sysstats/iostat.INFO
解决方案
例子
- CVM 命令上次重启:
nutanix@cvm$ 上次重启 重启系统启动 2.6.32-279.9.1.e 十二月 23 日星期一 09:40 - 12:16 (02:36)
- CVM /var/log/messages和kern.log上的日志:
12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf 等待 /dev/fct0 创建 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:探测 fct0 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:sector_size=512 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:设备正在作为块设备运行。 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:将通道范围数据设置为 [2 .. 2047] 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:*** 检测到非正常关机,重新扫描日志。*** 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:*** 这可能需要几分钟。*** 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:**************************************************** 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:检测到断电 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:非正常关机后成功重新连接。(AP:1942+228114432) 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:创建块设备 fioa:主要:252 次要:0 扇区大小:512... 12 月 23 日 09:40:06 NTNX-CVM-A 内核:fioa:fioa1
- ESXi 日志/vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
2013-12-23T17:35:25.959Z| vcpu-0| I120:CPU 复位:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-2| I120:CPU 重置:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-7| I120:CPU 重置:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-1| I120:CPU 复位:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-5| I120:CPU 重置:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-4| I120:CPU 重置:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-3| I120:CPU 复位:软(模式 1) 2013-12-23T17:35:25.960Z| vcpu-6| I120:CPU 重置:软(模式 1)
从 vCenter 启动的 CVM 上的“重新启动客户机操作系统”会导致 cvm 的 vmware.log 中出现以下签名
(请注意,如果已通过 AOS 升级或 cvm_shutdown 命令从 Nutanix 集群内部正常重启 CVM,则此条目不会出现在 vmware.log 中)2022-03-01T23:24:30.638Z| vmx| I125:工具:发送“OS_Reboot”(状态 = 2)状态更改请求
从 vCenter 启动的 CVM 上的“关闭客户机操作系统”会导致 cvm 的 vmware.log 中出现以下签名
(请注意,如果 CVM 已通过 AOS 升级或 cvm_shutdown 命令从 Nutanix 集群内部正常关闭,则此条目不会出现在 vmware.log 中)2022-03-02T00:22:15.448Z| vmx| I125:工具:发送“OS_Halt”(状态 = 1)状态更改请求
vmware.log 的另一个示例(基于 VMware 错误编号 676321):2013-07-17T22:35:53.907Z| vcpu-0| W110:监控恐慌:vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 2013-07-17T22:35:53.907Z| vcpu-0| I120:核心转储,构建版本 build-838463 2013-07-17T22:35:53.907Z| vcpu-6| I120:退出 vcpu-6 2013-07-17T22:35:53.907Z| vcpu-4| I120:退出 vcpu-7 2013-07-17T22:35:53.907Z| vcpu-0| W110:写入监视器核心文件“/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz”
另一个 vmware.log(EPT 配置错误 - VMware KB 1036775 ):2013-05-03T17:27:43.262Z| vcpu-1| MONITOR PANIC:vcpu-0:EPT 配置错误:PA b49b405b0 2013-05-03T17:27:43.262Z| vcpu-1| 核心转储,构建版本为 build-623860 2013-05-03T17:27:43.262Z| vcpu-1| 写入监视器核心文件“/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz” 2013-05-03T17:27:43.262Z| vcpu-6| 退出 vcpu-6
- ESXi 日志/vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0在此示例中显示了 jbd2/fio driver问题:
最后一个 sysfs 文件:/sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 链接的模块:be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid:3403,通信:jbd2/fioa1-8 污染:P --------------- 2.6.32-279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP:0010:[
][ ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP:0018:ffff880431113d30 EFLAGS:00010246 RAX:0000000000000008 RBX:ffff8804330d9800 RCX:0000000000000000 RDX:ffff8804060ff000 RSI:0000000000000286 RDI:ffff8804330d9800 RBP:ffff880431113e60 R08:ffff880028216e90 R09:ffff880028216f00 R10: 000000000000018 R11:000000000000000 R12:000000000000000 R13:ffff8804330d9800 R14:ffff8804220a4ae0 R15:ffff8804330d9898 FS:000000000000000(0000) GS:ffff880028200000(0000) knlGS:0000000000000000 CS:0010 DS:0018 ES:0018 CR0:000000008005003b CR2:00007fbeca8a4916 CR3: 0000000378ef3000 CR4:00000000000006f0 DR0:0000000000000000 DR1:0000000000000000 DR2:0000000000000000 DR3:0000000000000000 DR6:00000000ffff0ff0 DR7:0000000000000400 进程 jbd2/fioa1-8(pid:3403,threadinfo ffff880431112000,任务 ffff8804220a4ae0)堆栈:
对于任何最近的硬盘故障,请检查 hades.out 日志。
如果 SSD 是元数据驱动器,AOS 将强制 CVM 重新启动。此外,如果 AOS 无法移除 HDD,并且 hades 触发了强制移除,CVM 将重新启动。
ServiceVM.out.0的输出( Bug 735768 ):
内核 BUG 位于 fs/jbd2/commit.c:353!无效操作码:0000 [#1] SMP 最后一个 sysfs 文件:/sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2:0:2/2:0:2:0/block/sdc/dev CPU 1
ESXi vmksummary查看 ESXi 主机是否重新启动:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop:主机正在关闭 2015-02-07T08:43:04Z bootstop:主机已启动
重型运载车(AHV):来自虚拟机管理程序上的审计日志的系统启动日志 11277 类型 = SYSTEM_BOOT 消息 = 审核 (1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 消息 ='init exe="/sbin/telinit" 主机名 =? 地址 =? 终端 = 控制台 res = 成功' 11278 类型 = SYSTEM_RUNLEVEL 消息 = 审核 (1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 消息 ='old-level=N new-level=3 exe="/sbin/telinit" 主机名 =? addr=? 终端 = 控制台 res=succe ss'
计算机视觉:nutanix@cvm$ sudo grep -i "kmsg started" /home/log/messages 2015-01-30T10:59:39.957663-08:00 NTNX-A-CVM 内核:imklog 5.8.10,日志源 = /proc/kmsg started。 2015-02-07T00:46:55.164530-08:00 NTNX-A-CVM 内核:imklog 5.8.10,日志源 = /proc/kmsg started。
滚动上面几行可获得更多信息:nutanix@cvm$ sudo grep -i -B 5 "kmsg 已启动" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd:节点=NTNX-C-CVM 类型=EOE 消息=审核(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd:节点=NTNX-C-CVM 类型=SYSCALL 消息=审核(1423274402.577:7499): arch=c000003e 系统调用=90 成功=是 退出=0 a0=251b700 a1=1ed a2 = 7f1ddb485a08 a3 = 7fff69bbdf30 items = 1 ppid = 8586 pid = 9025 auid = 1000 uid = 1000 gid = 1000 euid = 1000 suid = 1000 fsuid = 1000 egid = 1000 sgid = 1000 fsgid = 1000 tty =(无)ses = 150912 comm =“python”exe =“/ usr / bin / python”subj = unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key =“perm_mod”2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd:节点=NTNX-C-CVM类型 = SYSCALL msg = 审核(1423274402.584:7500):arch = c000003e syscall = 90 成功 = 是退出 = 0 a0 = 2894550 a1 = 1ed a2 = 7f1e2b955a08 a3 = 7fff0e433a48 项目 = 1 ppid = 8570 pid = 9026 auid = 1000 uid = 1000 gid = 1000 euid = 1000 suid = 1000 fsuid = 1000 egid = 1000 sgid = 1000 fsgid = 1000 tty =(无)ses = 150897 comm =“python”exe =“/ usr/bin/python” subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18:00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson-3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u:object_r:user_home_t:s0 nametype=NORMAL
对于较新版本的 CVM,您可能必须 grep“rsyslogd.*start”而不是“kmsg started”:
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin software="rsyslogd" swVersion="7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] start 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: 警告:~ 操作已弃用,请考虑改用“stop”语句 [尝试 http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd[1]: 已启动系统日志服务。
附加信息
- Nutanix KB 1252 - Nutanix 门户中的原始文档
- Nutanix 登陆页面
- Lenovo ISG 支持计划 - ThinkAgile HX 设备和Lenovo Converged HX 系列