Обратите внимание: на этом веб-сайте есть система специальных возможностей. Нажмите Control-F11, чтобы настроить веб-сайт для слабовидящих, использующих программу чтения с экрана; Нажмите Control-F10, чтобы открыть меню специальных возможностей.

Анализ первопричин перезагрузок CVM

Анализ первопричин перезагрузок CVM

Анализ первопричин перезагрузок CVM

Эта статья переведена автоматически. Щелкните здесь, чтобы просмотреть исходную версию на английском языке.

Описание

В этой статье описывается, как устранять неполадки и выполнять анализ основных причин, когда CVM (виртуальная машина контроллера) внезапно перезагружается.

Журналы для поиска внутри CVM:

 dmesg /var/log/messages /home/log/messages (во время перезагрузки будут доступны подробные журналы ядра.)

Журналы для поиска на хосте AHV:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

Журналы для поиска внутри ESXi:

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
     
    
    
    
   
   
   
  
  
  
 

Чтобы просмотреть использование памяти/процессора/задержку диска CVM во время перезагрузки, можно просмотреть системную статистику в журналах /home/nutanix/data/logs/sysstats . Обратите внимание, что журналы имеют временную метку UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

Решение

Примеры

  1. Последняя перезагрузка команды CVM:
     nutanix@cvm$ последняя перезагрузка
    перезагрузка системы загрузка 2.6.32-279.9.1.e Пн 23 дек 09:40 - 12:16 (02:36)
  1. Журналы в CVM /var/log/messages и kern.log :
     23 декабря, 09:40:06 Ядро NTNX-CVM-A: fioinf Ожидание создания /dev/fct0
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: проверено fct0
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: сектор_размер=512
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: Устройство работает как блочное устройство.
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: установка данных диапазона каналов в [2 .. 2047]
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: *** Обнаружено некорректное завершение работы, повторное сканирование журнала. ***
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: *** это может занять несколько минут.              ***
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: ************************ ***************************
    23 декабря, 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: обнаружено отключение питания
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: успешно повторно подключено после некорректного завершения работы.  (AP: 1942+228114432)
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 ГБ 0000:03:00.0: Создание блочного устройства fioa: основной: 252 дополнительный: 0 размер сектора: 512...
    23 декабря 09:40:06 Ядро NTNX-CVM-A: fioa: fioa1
  1. ESXi регистрирует /vmfs/volumes/xxxxxxxxxx-xxxxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
     2013-12-23T17:35:25.959Z| vcpu-0| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-2| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-7| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-1| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-5| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-4| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-3| I120: Сброс ЦП: программный (режим 1)
    2013-12-23T17:35:25.960Z| виртуальный процессор-6| I120: Сброс ЦП: программный (режим 1)

    «Перезапуск гостевой ОС» на CVM, инициированный из vCentre, приводит к появлению следующей подписи в vmware.log cvm.
    (Обратите внимание, что эта запись не появляется в vmware.log, если CVM был корректно перезапущен из кластера Nutanix с помощью обновления AOS или команды cvm_shutdown)
     2022-03-01T23:24:30.638Z| vmx| I125: Инструменты: отправка запроса на изменение состояния OS_Reboot (состояние = 2)
    

    «Завершение работы гостевой ОС» на CVM, инициированное из vCentre, приводит к появлению следующей подписи в vmware.log cvm.
    (Обратите внимание, что эта запись не появляется в vmware.log, если CVM был корректно отключен из кластера Nutanix с помощью обновления AOS или команды cvm_shutdown)
     2022-03-02T00:22:15.448Z| vmx| I125: Инструменты: отправка запроса на изменение состояния OS_Halt (состояние = 1)
    

    Другой пример vmware.log (на основе ошибки VMware № 676321):
     2013-07-17T22:35:53.907Z| vcpu-0| W110: ПАНИКА МОНИТОРА: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    2013-07-17T22:35:53.907Z| vcpu-0| I120: дамп ядра со сборкой build-838463
    2013-07-17T22:35:53.907Z| виртуальный процессор-6| I120: Выход из vcpu-6
    2013-07-17T22:35:53.907Z| виртуальный процессор-4| I120: Выход из vcpu-7
    2013-07-17T22:35:53.907Z| vcpu-0| W110: Запись основного файла монитора «/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz»
    

    Другой файл vmware.log (неправильная конфигурация EPT — VMware KB 1036775 ):
     2013-05-03T17:27:43.262Z| виртуальный процессор-1| ПАНИКА МОНИТОРА: vcpu-0:неправильная конфигурация EPT: PA b49b405b0
    2013-05-03T17:27:43.262Z| виртуальный процессор-1| Дамп ядра со сборкой build-623860
    2013-05-03T17:27:43.262Z| виртуальный процессор-1| Запись основного файла монитора "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz"
    2013-05-03T17:27:43.262Z| виртуальный процессор-6| Выход из vcpu-6
    
  1. Журналы ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 показывают проблему driver jbd2/fio в этом примере:
     последний файл sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Модули, связанные с: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i pid: 3403, comm: jbd2/fioa1-8 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
        
        ] [
         
        
         ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP: 0018:ffff880431113d30 EFLAGS: 00010246 RAX: 0000000000000008 RBX: ffff8804330d9800 RCX: 0000000 000000000 RDX: ffff8804060ff000 RSI: 0000000000000286 RDI: ffff8804330d9800 RBP: ffff880431113e60 R08: ffff880028216e90 R09: ffff880028216f00 : 0000000000000018 R11: 0000000000000000 R12: 0000000000000000 R13: ffff8804330d9800 R14: ffff8804220a4ae0 R15: ffff8804330d9898 FS: 000000000000000(0000) GS:ffff880028200000(00) 00) knlGS:0000000000000000 CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b CR2: 00007fbeca8a4916 CR3: 0000000378ef3000 CR4: 00000000000 06f0 ДР0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Процесс jbd 2/fioa1-8 (pid: 3403, информация о потоке ffff880431112000, задача ffff8804220a4ae0) Стек:
         
        
        
        
       
  1. Чтобы узнать о недавних сбоях жесткого диска, проверьте журнал Hades.out.

    Если SSD является диском метаданных, AOS заставит CVM перезагрузиться. Кроме того, если у AOS возникнут проблемы с извлечением жесткого диска и Hades инициирует принудительное удаление, CVM перезагрузится.

    Вывод ServiceVM.out.0 ( ошибка 735768 ):

     ОШИБКА ядра в fs/jbd2/commit.c:353! неверный код операции: 0000 [#1] Последний файл sysfs SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/block/sdc/dev ЦП 1

    ESXi vmksummary , чтобы узнать, перезагрузился ли хост ESXi:
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: хост выключается 2015-02-07T08:43:04Z bootstop: хост загрузился

    АХВ:
     Журналы загрузки системы из журналов аудита на гипервизоре.
    
     11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" имя хоста=? адрес=? терминал=консоль res=успех'
    11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N new-level=3 exe=" /sbin/telinit" имя хоста =? адрес=? терминал = консоль res = успех ss'
    

    ЦВМ:
     nutanix@cvm$ sudo grep -i "kmsg запущен" /home/log/messages 2015-01-30T10:59:39.957663-08:00 Ядро NTNX-A-CVM: imklog 5.8.10, источник журнала = /proc/kmsg начал. 2015-02-07T00:46:55.164530-08:00 Ядро NTNX-A-CVM: imklog 5.8.10, источник журнала = /proc/kmsg запущен.

    Прокрутите несколько строк выше, чтобы получить дополнительную информацию:
     nutanix@cvm$ sudo grep -i -B 5 "kmsg запущен" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.577:7499): Arch =c000003e syscall=90 успех=да выход=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 =1000 egid=1000 sgid=1000 fsgid=1000 tty=(none) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:7500): Arch=c000003e syscall=90 успех=да exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7ff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 1000 фсгид= 1000 tty=(нет) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: object_r:user_home_t:s0 nametype=НОРМАЛЬНЫЙ

Для более новых версий CVM вам, возможно, придется искать «rsyslogd.*start», а не «kmsg Started»:

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [origin Software="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www "] начало 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: предупреждение: ~ действие устарело, рассмотрите возможность использования вместо него оператора stop [попробуйте http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Запущена служба системного журнала.

Дополнительная информация

ID документа:HT516509
Дата публикации оригинала:05/21/2024
Дата последнего изменения:05/30/2024