Análise de causa raiz de reinicializações CVM

Análise de causa raiz de reinicializações CVM

Análise de causa raiz de reinicializações CVM

Este é um artigo traduzido automaticamente, por favor clique aqui para ver a versão original em inglês.

Descrição

Este artigo descreve como solucionar problemas e realizar análise de causa raiz quando um CVM (VM controlador) é reinicializado repentinamente.

Logs para procurar dentro da CVM:

 dmesg /var/log/messages /home/log/messages (terá os logs detalhados do kernel no momento da reinicialização.)

Registros a serem procurados no host AHV:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

Logs a serem procurados dentro do ESXi:

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
     
    
    
    
   
   
   
  
  
  
 

Para revisar a latência de memória/uso da CPU/disco do CVM no momento da reinicialização, os logs sysstats em /home/nutanix/data/logs/sysstats podem ser revisados. Observe que os logs estão no carimbo de data/hora UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

Solução

Exemplos

  1. Última reinicialização do comando CVM:
     nutanix@cvm$ última reinicialização
    reinicie a inicialização do sistema 2.6.32-279.9.1.e Seg, 23 de dezembro 09:40 - 12:16 (02:36)
  1. Logs na CVM /var/log/messages e kern.log :
     23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Aguardando a criação de /dev/fct0
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sondado fct0
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: sector_size=512
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: O dispositivo está operando como um dispositivo de bloco.
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: configurando dados de intervalo de canal para [2 .. 2047]
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *** desligamento impuro detectado, verificando novamente o log. ***
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: *** isso pode levar vários minutos.              ***
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: ************************ ***************************
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Powercut detectado
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 GB 0000:03:00.0: Reconectado com sucesso após desligamento impróprio.  (AP: 1942+228114432)
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: Criando dispositivo de bloco fioa: principal: 252 menor: 0 tamanho do setor: 512...
    23 de dezembro 09:40:06 Kernel NTNX-CVM-A: fioa: fioa1
  1. Logs ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
     2013-12-23T17:35:25.959Z| vcpu-0| I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-2| I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-7| I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-1 | I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-5| I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-4| I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-3| I120: Reinicialização da CPU: suave (modo 1)
    2013-12-23T17:35:25.960Z| vcpu-6| I120: Reinicialização da CPU: suave (modo 1)

    "Reiniciar sistema operacional convidado" no CVM iniciado a partir do vCentre resulta na seguinte assinatura no vmware.log do cvm
    (Observe que esta entrada não ocorre no vmware.log se o CVM tiver sido reiniciado normalmente de dentro do Cluster Nutanix por meio do AOS Upgrade ou do comando cvm_shutdown)
     2022-03-01T23:24:30.638Z| vmx| I125: Ferramentas: enviando solicitação de alteração de estado 'OS_Reboot' (estado = 2)
    

    "Shutdown Guest OS" no CVM iniciado a partir do vCentre resulta na seguinte assinatura no vmware.log do cvm
    (Observe que esta entrada não ocorre no vmware.log se o CVM tiver sido desligado normalmente de dentro do Cluster Nutanix por meio do AOS Upgrade ou do comando cvm_shutdown)
     2022-03-02T00:22:15.448Z| vmx| I125: Ferramentas: enviando solicitação de mudança de estado 'OS_Halt' (estado = 1)
    

    Outro exemplo de vmware.log (baseado no bug VMware nº 676321):
     17-07-2013T22:35:53.907Z| vcpu-0| W110: PÂNICO DO MONITOR: vcpu-7:ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    17-07-2013T22:35:53.907Z| vcpu-0| I120: Core dump com build build-838463
    17-07-2013T22:35:53.907Z| vcpu-6| I120: Saindo do vcpu-6
    17-07-2013T22:35:53.907Z| vcpu-4| I120: Saindo do vcpu-7
    17-07-2013T22:35:53.907Z| vcpu-0| W110: Gravando arquivo principal do monitor "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
    

    Outro vmware.log (configuração incorreta do EPT - VMware KB 1036775 ):
     03-05-2013T17:27:43.262Z| vcpu-1| MONITOR PANIC: vcpu-0:Configuração incorreta do EPT: PA b49b405b0
    03-05-2013T17:27:43.262Z| vcpu-1| Core dump com build build-623860
    03-05-2013T17:27:43.262Z| vcpu-1| Gravando o arquivo principal do monitor "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz"
    03-05-2013T17:27:43.262Z| vcpu-6| Saindo do vcpu-6
    
  1. Os logs ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 mostram o problema driver jbd2/fio neste exemplo:
     último arquivo sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Módulos vinculados em: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403, comm: jbd2/fioa1-8 Tainted: P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
        
        ] [
         
        
         ] jbd2_journal_commit_transaction + 0x120c/0x14b0 [jbd2] RSP: 0018:ffff880431113d30 EFLAGS: 00010246 RAX: 0000000000000008 RBX: ffff8804330d9800 RCX: 000000000 RDX: ffff8804060ff000 RSI: 0000000000000286 RDI: ffff8804330d9800 RBP: ffff880431113e60 R08: ffff880028216e90 R09: ffff880028216f00 : 000000000000018 R11: 000000000000000 R12: 0000000000000000 R13: ffff8804330d9800 R14: ffff8804220a4ae0 R15: ffff8804330d9898 FS: 0000000000000000(0000) 00) knlGS:000000000000000 CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b CR2: 00007fbeca8a4916 CR3: 0000000378ef3000 CR4 : : 000000000000000 DR1: 000000000000000 DR2: 000000000000000 DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 Processo jbd2/fioa 1-8 (pid: 3403, threadinfo ffff880431112000, tarefa ffff8804220a4ae0) Pilha:
         
        
        
        
       
  1. Para qualquer falha recente no disco rígido, verifique o log hades.out.

    Se o SSD for a unidade de metadados, o AOS forçará a reinicialização do CVM. Além disso, se o AOS tiver problemas para remover um HDD e uma remoção forçada for acionada por hades, um CVM será reinicializado.

    A saída de ServiceVM.out.0 ( Bug 735768 ):

     BUG do kernel em fs/jbd2/commit.c:353! código de operação inválido: 0000 [#1] último arquivo sysfs do SMP: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/bloco/sdc/dev CPU 1

    ESXi vmksummary para ver se o host ESXi foi reinicializado:
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: Host está desligando 2015-02-07T08:43:04Z bootstop: Host foi inicializado

    AHV:
     Logs de inicialização do sistema a partir de logs de auditoria no hipervisor
    
     11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" hostname=? endereço=? terminal=console res=sucesso'
    11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N new-level=3 exe=" /sbin/telinit" hostname=? endereço=? terminal=console res=sucesso'
    

    CVM:
     nutanix@cvm$ sudo grep -i "kmsg iniciado" /home/log/messages 2015-01-30T10:59:39.957663-08:00 Kernel NTNX-A-CVM: imklog 5.8.10, fonte de log = /proc/kmsg iniciado. 2015-02-07T00:46:55.164530-08:00 Kernel NTNX-A-CVM: imklog 5.8.10, fonte de log = /proc/kmsg iniciado.

    Role algumas linhas acima para obter mais informações:
     nutanix@cvm$ sudo grep -i -B 5 "kmsg iniciado" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type= EOE msg=auditoria(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.577:7499): arch = c000003e syscall = 90 sucesso = sim saída = 0 a0 = 251b700 a1 = 1ed a2 = 7f1ddb485a08 a3 = 7fff69bbdf30 itens = 1 ppid = 8586 pid = 9025 auid = 1000 uid = 1000 gid = 1000 euid = 1000 suid = 1000 fsuid = 1000 egid=1000 sgid=1000 fsgid=1000 tty=(nenhum) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:7500): arch=c000003e syscall=90 sucesso=yes saída = 0 a0 = 2894550 a1 = 1ed a2 = 7f1e2b955a08 a3 = 7fff0e433a48 itens = 1 ppid = 8570 pid = 9026 auid = 1000 uid = 1000 gid = 1000 euid = 1000 suid = 1000 fsuid = 1000 egid = 1000 1000 fsgid = 1000 tty=(nenhum) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 modo=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u: object_r:user_home_t:s0 nametype=NORMAL

Para versões mais recentes do CVM, pode ser necessário usar o grep para "rsyslogd.*start" em vez de "kmsg iniciado":

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [software de origem = "rsyslogd" swVersion = " 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] início 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: aviso: ~ a ação está obsoleta, considere usar a instrução 'stop' [tente http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: Serviço de registro do sistema iniciado.

Informações adicionais

ID do documento:HT516509
Data de publicação original:05/21/2024
Data da última modificação:05/30/2024