请注意:本网站包含无障碍系统。 按 Control-F11 将网站调整为使用屏幕阅读器的视障人士;按 Control-F10 打开辅助功能菜单。

CVM重啟根本原因分析

CVM重啟根本原因分析

CVM重啟根本原因分析

這份文件為翻譯程式自動翻譯結果,請點選以下連結流灠英文版文件內容。

描述

本文介紹當CVM(控制虛擬機器)突然重啟時,如何排除故障並進行根本原因分析。

要在 CVM 內部尋找的日誌:

 dmesg /var/log/messages /home/log/messages (重新啟動時將有詳細的核心日誌。)

在 AHV 主機上尋找的日誌:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

要在 ESXi 內部尋找的日誌:

 /vmfs/磁碟區/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
     
    
    
    
   
   
   
  
  
  
 

要在重新啟動時查看 CVM 的記憶體/CPU 使用量/磁碟延遲,可以查看/home/nutanix/data/logs/sysstats日誌下的 sysstats。請注意,日誌採用 UTC 時間戳記。

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

解決方案

例子

  1. CVM 指令上次重開機
     nutanix@cvm$ 最後重新啟動
    重新啟動系統啟動 2.6.32-279.9.1.e 12 月 23 日星期一 09:40 - 12:16 (02:36)
  1. 記錄 CVM /var/log/messageskern.log
     12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf 等待建立 /dev/fct0
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:偵測到 fct0
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:sector_size=512
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:設備正在作為區塊設備運作。
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:將通道範圍資料設定為 [2 .. 2047]
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:*** 偵測到不正常關閉,重新掃描日誌。 ***
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:*** 這可能需要幾分鐘。              ***
    12 月23 日09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:********************** ********************************
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:偵測到斷電
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:非正常關閉後成功重新連線。  (電話:1942+228114432)
    12 月 23 日 09:40:06 NTNX-CVM-A 核心:fioinf Fusion-io ioDrive2 365GB 0000:03:00.0:建立區塊設備 fioa:主要:252 次要:0 磁區大小:512...
    12 月 23 日 09:40:06 NTNX-CVM-A 內核:fioa:fioa1
  1. ESXi 日誌/vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log
     2013-12-23T17:35:25.959Z| vcpu-0| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-2| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-7| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-1| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-5| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-4| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-3| I120:CPU 重設:軟重設(模式 1)
    2013-12-23T17:35:25.960Z| vcpu-6| I120:CPU 重設:軟重設(模式 1)

    從 vCentre 啟動的 CVM 上的「重新啟動來賓作業系統」會導致 cvm 的 vmware.log 中出現以下簽名
    (請注意,如果 CVM 已透過 AOS Upgrade 或 cvm_shutdown 命令從 Nutanix 叢集內正常重新啟動,則 vmware.log 中不會出現此項目)
     2022-03-01T23:24:30.638Z| vmx| I125:工具:傳送「OS_Reboot」(狀態 = 2)狀態變更請求
    

    從 vCentre 啟動的 CVM 上的「關閉來賓作業系統」會導致 cvm 的 vmware.log 中出現以下簽名
    (請注意,如果 CVM 已透過 AOS Upgrade 或 cvm_shutdown 命令從 Nutanix 叢集內正常關閉,則 vmware.log 中不會出現此項目)
     2022-03-02T00:22:15.448Z| vmx| I125:工具:傳送「OS_Halt」(狀態 = 1)狀態變更請求
    

    vmware.log 的另一個範例(基於 VMware bug nr. 676321):
     2013-07-17T22:35:53.907Z| vcpu-0| W110:監控恐慌:vcpu-7:斷言 vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    2013-07-17T22:35:53.907Z| vcpu-0| I120:具有構建 build-838463 的核心轉儲
    2013-07-17T22:35:53.907Z| vcpu-6| I120:退出 vcpu-6
    2013-07-17T22:35:53.907Z| vcpu-4| I120:退出 vcpu-7
    2013-07-17T22:35:53.907Z| vcpu-0| W110:寫入監視器核心檔案“/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz”
    

    另一個 vmware.log(EPT 配置錯誤 - VMware KB 1036775 ):
     2013-05-03T17:27:43.262Z| vcpu-1|監控緊急狀況:vcpu-0:EPT 設定錯誤:PA b49b405b0
    2013-05-03T17:27:43.262Z| vcpu-1|具有構建 build-623860 的核心轉儲
    2013-05-03T17:27:43.262Z| vcpu-1|寫入監視器核心檔案“/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz”
    2013-05-03T17:27:43.262Z| vcpu-6|退出 vcpu-6
    
  1. ESXi 日誌/vmfs/volumes/xxxxxxxx-xxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0在本範例中顯示 jbd2/fio driver問題:
    最後一個sysfs 檔案:/sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 連結到的模組: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i88:受通訊:j85-185 通訊:j8b2-18085 通訊: .32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware 虛擬平台/440BX 桌面 RIP:0010:[
        
        ] [
         
        
         ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP:0018:ffff880431113d30 EFLAGS:00010246 RAX:0000000000000008 fff 00000 RDX:ffff8804060ff000 RSI:000000000000286 RDI:ffff8804330d9800 RBP:ffff880431113e60 R08:ffff8800282160808020 0000018 R11: 0000000000000000 R12: 00000000000000000000000000 R12: 000000000000000 ffff880028200000(00) 00) knlGS:0000000000000000 CS:0010 DS:0018 ES:0018 CR0:000000008005003b CR2:00007fbe 00000000000006f0 DR 0: 0000000000000000 DR1: 000000000000000 DR2: 0000000000000000 DR3: 000000000ff 000000000400 進程 jbd 2/fioa1-8(pid:3403,threadinfo ffff880431112000,任務ffff8804220a4ae0)堆疊:
         
        
        
        
       
  1. 對於最近出現的任何硬碟故障,請檢查 hades.out 日誌。

    如果 SSD 是元資料驅動器,AOS 將強制 CVM 重新啟動。此外,如果 AOS 移除 HDD 時遇到問題,並且由 hades 觸發強制移除,CVM 將重新啟動。

    ServiceVM.out.0的輸出(錯誤 735768 ):

    核心 BUG 位於 fs/jbd2/commit.c:353!無效運算子:0000 [#1] SMP 最後一個sysfs 檔案:/sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/ target2: 0:2/2:0:2:0/區塊/sdc/dev CPU 1

    ESXi vmksummary以查看 ESXi 主機是否重新啟動:
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: 主機正在關閉電源 2015-02-07T08:43:04Z bootstop: 主機已啟動

    空氣高壓:
    來自虛擬機器管理程式上審核日誌的系統引導日誌
    
     11277型別= SYSTEM_BOOT msg =稽核(1556350213.112:4):pid = 4405 uid = 0 auid = 4294967295 ses = 4294967295 subj = system_usystem_bin 0名=?地址=?終端=控制台資源=成功'
    11278型別= SYSTEM_RUNLEVEL msg =審核(1556350213.112:5):pid = 4405 uid = 0 auid = 4294967295 ses = 4294967295 subj = system_u: 295 ses = 4294967295 subj = system_u:Fsexes = sexes_Scot = 35 subjsystem = 舊等級:舊等級 = 395 等級:新等級」 / telinit" 主機名稱=?地址=?終端=控制台 res=成功 ss'
    

    電腦視覺系統:
     nutanix@cvm$ sudo grep -i“kmsg 已啟動”/home/log/messages 2015-01-30T10:59:39.957663-08:00 NTNX-A-CVM 核心:imklog 5.8.10,日誌來源= /proc/ kmsg開始了。 2015-02-07T00:46:55.164530-08:00 NTNX-A-CVM 核心:imklog 5.8.10,日誌來源 = /proc/kmsg 已啟動。

    滾動上面幾行以獲取更多資訊:
     nutanix@cvm$ sudo grep -i -B 5「kmsg 已啟動」/home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: 節點=NTNX-C-CVM 類型= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: 節點=NTNX-C-CVM type=SYSC-C-CVM. arch =c000003e 系統調用=90 成功=是退出=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 項目=1 ppid=8586 pid=9025 auid=1000 uid=1000 gid=1000 euid=1000 suid=1000 fsuid =1 000 egid=1000 sgid=1000 fsgid=1000 tty=(無) ses=150912 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:0s0. key=" perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: 節點=NTNX-C-CVM 類型=SYSCALL msg=audit(1423274402.584:7500): arch=c000003e syscall=90成功=是退出=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 項目=1 ppid=8570 pid=9026 auid=1000 uid=1000 gid=100su id=10 00 fsgid= 1000 tty=(無) ses=150897 comm="python" exe="/usr/bin/python" subj=unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 ="perperm_mod" 0perm -06T18: 00:02.585392-08:00 NTNX-C-CVM audispd:節點=NTNX-C-CVM類型=路徑訊息=審核(1423274402.584:7500):項目=0名稱=“/home/nutx/pyth. eggs/simplejson」 -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogid=100000 obj=unconfined_u: object_r:user_home_t:s0 nametype=NORMAL

對於較新版本的 CVM,您可能需要 grep 來尋找“rsyslogd.*start”而不是“kmsg started”:

 nutanix@cvm$ sudo grep -i“rsyslogd.*start”/var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd:[原始軟體=“rsyslogd”Version=“rsyslog” 7.4.7" x-pid="1273" x-info=" www "] 啟動 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307:警告:〜操作已棄用,請考慮使用「停止」語句取代[嘗試www NTNX-C-CVM systemd [1]:啟動系統日誌服務。

附加資訊

文件ID:HT516509
原始發布日期:05/21/2024
Last Modified Date:05/30/2024