Анализ первопричин перезагрузок CVM
Анализ первопричин перезагрузок CVM
Анализ первопричин перезагрузок CVM
Описание
В этой статье описывается, как устранять неполадки и выполнять анализ основных причин, когда CVM (виртуальная машина контроллера) внезапно перезагружается.
Журналы для поиска внутри CVM:
dmesg /var/log/messages /home/log/messages (во время перезагрузки будут доступны подробные журналы ядра.)
Журналы для поиска на хосте AHV:
/tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-- -CVM.log
Журналы для поиска внутри ESXi:
/vmfs/volumes/NTNX-local-ds-- /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds- - /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
Чтобы просмотреть использование памяти/процессора/задержку диска CVM во время перезагрузки, можно просмотреть системную статистику в журналах /home/nutanix/data/logs/sysstats . Обратите внимание, что журналы имеют временную метку UTC.
/home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO
Решение
Примеры
- Последняя перезагрузка команды CVM:
nutanix@cvm$ последняя перезагрузка перезагрузка системы загрузка 2.6.32-279.9.1.e Пн 23 дек 09:40 - 12:16 (02:36)
- Журналы в CVM /var/log/messages и kern.log :
23 декабря, 09:40:06 Ядро NTNX-CVM-A: fioinf Ожидание создания /dev/fct0 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: проверено fct0 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: сектор_размер=512 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: Устройство работает как блочное устройство. 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: установка данных диапазона каналов в [2 .. 2047] 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: *** Обнаружено некорректное завершение работы, повторное сканирование журнала. *** 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: *** это может занять несколько минут. *** 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: ************************ *************************** 23 декабря, 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: обнаружено отключение питания 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: успешно повторно подключено после некорректного завершения работы. (AP: 1942+228114432) 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: Создание блочного устройства fioa: основной: 252 дополнительный: 0 размер сектора: 512... 23 декабря 09:40:06 Ядро NTNX-CVM-A: fioa: fioa1
- ESXi регистрирует /vmfs/volumes/xxxxxxxxxx-xxxxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
2013-12-23T17:35:25.959Z| vcpu-0| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-2| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-7| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-1| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-5| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-4| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-3| I120: Сброс ЦП: программный (режим 1) 2013-12-23T17:35:25.960Z| виртуальный процессор-6| I120: Сброс ЦП: программный (режим 1)
«Перезапуск гостевой ОС» на CVM, инициированный из vCentre, приводит к появлению следующей подписи в vmware.log cvm.
(Обратите внимание, что эта запись не появляется в vmware.log, если CVM был корректно перезапущен из кластера Nutanix с помощью обновления AOS или команды cvm_shutdown)2022-03-01T23:24:30.638Z| vmx| I125: Инструменты: отправка запроса на изменение состояния OS_Reboot (состояние = 2)
«Завершение работы гостевой ОС» на CVM, инициированное из vCentre, приводит к появлению следующей подписи в vmware.log cvm.
(Обратите внимание, что эта запись не появляется в vmware.log, если CVM был корректно отключен из кластера Nutanix с помощью обновления AOS или команды cvm_shutdown)2022-03-02T00:22:15.448Z| vmx| I125: Инструменты: отправка запроса на изменение состояния OS_Halt (состояние = 1)
Другой пример vmware.log (на основе ошибки VMware № 676321):2013-07-17T22:35:53.907Z| vcpu-0| W110: ПАНИКА МОНИТОРА: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321 2013-07-17T22:35:53.907Z| vcpu-0| I120: дамп ядра со сборкой build-838463 2013-07-17T22:35:53.907Z| виртуальный процессор-6| I120: Выход из vcpu-6 2013-07-17T22:35:53.907Z| виртуальный процессор-4| I120: Выход из vcpu-7 2013-07-17T22:35:53.907Z| vcpu-0| W110: Запись основного файла монитора «/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz»
Другой файл vmware.log (неправильная конфигурация EPT — VMware KB 1036775 ):2013-05-03T17:27:43.262Z| виртуальный процессор-1| ПАНИКА МОНИТОРА: vcpu-0:неправильная конфигурация EPT: PA b49b405b0 2013-05-03T17:27:43.262Z| виртуальный процессор-1| Дамп ядра со сборкой build-623860 2013-05-03T17:27:43.262Z| виртуальный процессор-1| Запись основного файла монитора "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz" 2013-05-03T17:27:43.262Z| виртуальный процессор-6| Выход из vcpu-6
- Журналы ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 показывают проблему driver jbd2/fio в этом примере:
последний файл sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Модули, связанные с: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i pid: 3403, comm: jbd2/fioa1-8 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
] [ ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP: 0018:ffff880431113d30 EFLAGS: 00010246 RAX: 0000000000000008 RBX: ffff8804330d9800 RCX: 0000000 000000000 RDX: ffff8804060ff000 RSI: 0000000000000286 RDI: ffff8804330d9800 RBP: ffff880431113e60 R08: ffff880028216e90 R09: ffff880028216f00 : 0000000000000018 R11: 0000000000000000 R12: 0000000000000000 R13: ffff8804330d9800 R14: ffff8804220a4ae0 R15: ffff8804330d9898 FS: 000000000000000(0000) GS:ffff880028200000(00) 00) knlGS:0000000000000000 CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b CR2: 00007fbeca8a4916 CR3: 0000000378ef3000 CR4: 00000000000 06f0 ДР0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Процесс jbd 2/fioa1-8 (pid: 3403, информация о потоке ffff880431112000, задача ffff8804220a4ae0) Стек:
Чтобы узнать о недавних сбоях жесткого диска, проверьте журнал Hades.out.
Если SSD является диском метаданных, AOS заставит CVM перезагрузиться. Кроме того, если у AOS возникнут проблемы с извлечением жесткого диска и Hades инициирует принудительное удаление, CVM перезагрузится.
Вывод ServiceVM.out.0 ( ошибка 735768 ):
ОШИБКА ядра в fs/jbd2/commit.c:353! неверный код операции: 0000 [#1] Последний файл sysfs SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/block/sdc/dev ЦП 1
ESXi vmksummary , чтобы узнать, перезагрузился ли хост ESXi:[root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: хост выключается 2015-02-07T08:43:04Z bootstop: хост загрузился
АХВ:Журналы загрузки системы из журналов аудита на гипервизоре. 11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" имя хоста=? адрес=? терминал=консоль res=успех' 11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N new-level=3 exe=" /sbin/telinit" имя хоста =? адрес=? терминал = консоль res = успех ss'
ЦВМ:nutanix@cvm$ sudo grep -i "kmsg запущен" /home/log/messages 2015-01-30T10:59:39.957663-08:00 Ядро NTNX-A-CVM: imklog 5.8.10, источник журнала = /proc/kmsg начал. 2015-02-07T00:46:55.164530-08:00 Ядро NTNX-A-CVM: imklog 5.8.10, источник журнала = /proc/kmsg запущен.
Прокрутите несколько строк выше, чтобы получить дополнительную информацию:nutanix@cvm$ sudo grep -i -B 5 "kmsg запущен" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.577:7499): Arch =c000003e syscall=90 успех=да выход=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 =1000 egid=1000 sgid=1000 fsgid=1000 tty=(none) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:7500): Arch=c000003e syscall=90 успех=да exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7ff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 1000 фсгид= 1000 tty=(нет) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: object_r:user_home_t:s0 nametype=НОРМАЛЬНЫЙ
Для более новых версий CVM вам, возможно, придется искать «rsyslogd.*start», а не «kmsg Started»:
nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin Software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www "] начало 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: предупреждение: ~ действие устарело, рассмотрите возможность использования вместо него оператора stop [попробуйте http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Запущена служба системного журнала.
Дополнительная информация
- Nutanix KB 1252 — исходный документ на портале Nutanix
- Целевая страница Nutanix
- План поддержки Lenovo ISG — устройства ThinkAgile HX и Lenovo Converged HX Series