Veuillez noter : Ce site Web comprend un système d'accessibilité. Appuyez sur Ctrl-F11 pour adapter le site Web aux malvoyants qui utilisent un lecteur d'écran ; Appuyez sur Ctrl-F10 pour ouvrir un menu d'accessibilité.

Analyse des causes profondes des redémarrages CVM

Analyse des causes profondes des redémarrages CVM

Analyse des causes profondes des redémarrages CVM

Cet article a été traduit automatiquement, veuillez cliquer ici pour afficher la version originale rédigée en anglais.

Description

Cet article décrit comment dépanner et effectuer une analyse des causes profondes lorsqu'un CVM (Controller VM) redémarre soudainement.

Logs à rechercher dans le CVM :

 dmesg /var/log/messages /home/log/messages (Aura les journaux détaillés du noyau au moment du redémarrage.)

Journaux à rechercher sur l'hôte AHV :

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

Journaux à rechercher dans ESXi :

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
     
    
    
    
   
   
   
  
  
  
 

Pour examiner l'utilisation de la mémoire/du processeur/la latence du disque du CVM au moment du redémarrage, les statistiques système sous /home/nutanix/data/logs/sysstats peuvent être consultées. Notez que les journaux sont en horodatage UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

Solution

Exemples

  1. Commande CVM dernier redémarrage :
     nutanix@cvm$ dernier redémarrage
    redémarrage du système de démarrage 2.6.32-279.9.1.e lundi 23 décembre 09h40 - 12h16 (02h36)
  1. Logs sur CVM /var/log/messages et kern.log :
     23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf En attente de création de /dev/fct0
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : sondé fct0
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : sector_size=512
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : l'appareil fonctionne comme un périphérique bloc.
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : définition des données de plage de canaux sur [2 .. 2047]
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : *** arrêt incorrect détecté, nouvelle analyse du journal. ***
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : *** cela peut prendre plusieurs minutes.              ***
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : ************************ **************************
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : coupure de courant détectée
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : reconnecté avec succès après un arrêt incorrect.  (AP : 1942+228114432)
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioinf Fusion-io ioDrive2 365 Go 0000:03:00.0 : Création d'un périphérique de bloc fioa : majeur : 252 mineur : 0 taille du secteur : 512...
    23 décembre 09:40:06 Noyau NTNX-CVM-A : fioa : fioa1
  1. Journaux ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
     2013-12-23T17:35:25.959Z| vcpu-0| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-2| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-7| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-1| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-5| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-4| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-3| I120 : réinitialisation du processeur : logicielle (mode 1)
    2013-12-23T17:35:25.960Z| vcpu-6| I120 : réinitialisation du processeur : logicielle (mode 1)

    "Redémarrer le système d'exploitation invité" sur le CVM lancé à partir de vCentre entraîne la signature suivante dans le fichier vmware.log du cvm
    (Notez que cette entrée n'apparaît pas dans le fichier vmware.log si le CVM a été redémarré correctement depuis le cluster Nutanix via la mise à niveau AOS ou la commande cvm_shutdown)
     2022-03-01T23:24:30.638Z| vmx| I125 : Outils : envoi d'une demande de changement d'état 'OS_Reboot' (state = 2)
    

    "Arrêter le système d'exploitation invité" sur le CVM lancé à partir de vCentre entraîne la signature suivante dans le fichier vmware.log du cvm
    (Notez que cette entrée n'apparaît pas dans le fichier vmware.log si le CVM a été arrêté correctement depuis le cluster Nutanix via la mise à niveau AOS ou la commande cvm_shutdown)
     2022-03-02T00:22:15.448Z| vmx| I125 : Outils : envoi d'une demande de changement d'état 'OS_Halt' (state = 1)
    

    Autre exemple de vmware.log (basé sur le bug VMware n° 676321) :
     2013-07-17T22:35:53.907Z| vcpu-0| W110 : PANIQUE DE SURVEILLANCE : vcpu-7 : ASSERT vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    2013-07-17T22:35:53.907Z| vcpu-0| I120 : Core dump avec build build-838463
    2013-07-17T22:35:53.907Z| vcpu-6| I120 : sortie de vcpu-6
    2013-07-17T22:35:53.907Z| vcpu-4| I120 : sortie de vcpu-7
    2013-07-17T22:35:53.907Z| vcpu-0| W110 : Écriture du fichier principal du moniteur "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
    

    Un autre vmware.log (mauvaise configuration EPT - VMware KB 1036775 ) :
     2013-05-03T17:27:43.262Z| vcpu-1| PANIQUE DE MONITEUR : vcpu-0 : mauvaise configuration EPT : PA b49b405b0
    2013-05-03T17:27:43.262Z| vcpu-1| Core dump avec build build-623860
    2013-05-03T17:27:43.262Z| vcpu-1| Écriture du fichier principal du moniteur "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz"
    2013-05-03T17:27:43.262Z| vcpu-6| Quitter vcpu-6
    
  1. Les journaux ESXi /vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 affichent un problème driver jbd2/fio dans cet exemple :
     dernier fichier sysfs : /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 Modules liés dans : be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid : 3403, comm : jbd2/fioa1-8 Entaché : P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. Plateforme virtuelle VMware/RIP de bureau 440BX : 0010 :[
        
        ] [
         
        
         ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP : 0018:ffff880431113d30 EFLAGS : 00010246 RAX : 0000000000000008 RBX : ffff8804330d9800 RCX : 000000000 0000000 RDX : ffff8804060ff000 RSI : 0000000000000286 RDI : ffff8804330d9800 RBP : ffff880431113e60 R08 : ffff880028216e90 R09 : ffff880028216f00 R10 : 0 000000000000018 R11 : 0000000000000000 R12: 0000000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4AE0 R15: FFFF8804330D9898 FS: 0000000000000000 (0000) GS: FFFF80028200000 (000000) 0018 ES: 0018 CR0: 00000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378EF3000 CR4: 00000000000006F0 DR0: 0000000000000000 DR1 : 0000000000000000 DR2 : 0000000000000000 DR3 : 0000000000000000 DR6 : 00000000ffff0ff0 DR7 : 0000000000000400 Processus jbd2/fioa1 -8 (pid : 3403, threadinfo ffff880431112000, tâche ffff8804220a4ae0) Pile :
         
        
        
        
       
  1. Pour toute panne récente du disque dur, consultez le journal hades.out.

    Si le SSD est le lecteur de métadonnées, AOS forcera le redémarrage d'un CVM. De plus, si AOS rencontre des difficultés pour supprimer un disque dur et qu'une suppression forcée est déclenchée par Hades, un CVM redémarrera.

    La sortie de ServiceVM.out.0 ( bogue 735768 ) :

     BUG du noyau sur fs/jbd2/commit.c:353 ! opcode invalide : 0000 [#1] Dernier fichier sysfs SMP : /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2 : 0:2/2:0:2:0/bloc/sdc/dev CPU 1

    Résumé vmk d'ESXi pour voir si l'hôte ESXi a redémarré :
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop : l'hôte est en cours de mise hors tension 2015-02-07T08:43:04Z bootstop : l'hôte a démarré

    AVS:
     Journaux de démarrage système à partir des journaux d'audit sur l'hyperviseur
    
     11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4) : pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe="/sbin/telinit" hostname=? adresse=? terminal=console res=succès'
    11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5) : pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N new-level=3 exe=" /sbin/telinit" nom d'hôte=? adresse=? terminal=console res=succe ss'
    

    CVM :
     nutanix@cvm$ sudo grep -i "kmsg démarré" /home/log/messages 2015-01-30T10:59:39.957663-08:00 Noyau NTNX-A-CVM : imklog 5.8.10, source du journal = /proc/kmsg commencé. 2015-02-07T00:46:55.164530-08:00 Noyau NTNX-A-CVM : imklog 5.8.10, source du journal = /proc/kmsg démarré.

    Faites défiler quelques lignes ci-dessus pour avoir plus d'informations :
     nutanix@cvm$ sudo grep -i -B 5 "kmsg démarré" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd : node=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498) : 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd : node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.577:7499) : arch =c000003e syscall=90 success=yes exit=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 0 egid=1000 sgid=1000 fsgid=1000 tty=(aucun) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd : node=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:7500) : arch=c000003e syscall=90 success=yes exit=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 0 fsgid= 1000 tty=(aucun) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key="perm_mod" 2015-02-06T18 : 00:02.585392-08:00 NTNX-C-CVM audispd : node=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500) : item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=1000 rdev=00:00 obj=unconfined_u : object_r:user_home_t:s0 nametype=NORMAL

Pour les versions plus récentes de CVM, vous devrez peut-être rechercher « rsyslogd.*start » plutôt que « kmsg démarré » :

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd : [logiciel d'origine="rsyslogd" swVersion=" 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] début 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307 : avertissement : ~ l'action est obsolète, envisagez plutôt d'utiliser l'instruction 'stop' [essayez http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1] : démarrage du service de journalisation du système.

Informations Complémentaires

ID Document:HT516509
Date de publication originale:05/21/2024
Date de dernière modification:05/30/2024
Avis