تحليل السبب الجذري لإعادة تشغيل CVM

تحليل السبب الجذري لإعادة تشغيل CVM

تحليل السبب الجذري لإعادة تشغيل CVM

هذه المقالة مترجمة باستخدام الترجمة الآلية، الرجاء النقر هنا لعرض الإصدار الانجليزي الأصلي.

وصف

توضح هذه المقالة كيفية استكشاف الأخطاء وإصلاحها وإجراء تحليل السبب الجذري عند إعادة تشغيل CVM (جهاز التحكم VM) فجأة.

السجلات التي يجب البحث عنها داخل CVM:

 dmesg /var/log/messages /home/log/messages (سيحتوي على سجلات kernel التفصيلية في وقت إعادة التشغيل.)

السجلات التي يجب البحث عنها على مضيف AHV:

 /tmp/NTNX.serial.out.0 /var/tmp/NTNX.serial.out.0 /var/log/libvirt/qemu/NTNX-
  
  -
   
  
   -CVM.log
   
  
  
  
 

السجلات التي يجب البحث عنها داخل ESXi:

 /vmfs/volumes/NTNX-local-ds-
  
  -
   
  
   /ServiceVM_Centos/ServiceVM_Centos.0.out /vmfs/volumes/NTNX-local-ds-
    
   
    -
     
    
     /ServiceVM_Centos/vmware.log /var/log/vmksummary.log
     
    
    
    
   
   
   
  
  
  
 

لمراجعة الذاكرة/استخدام وحدة المعالجة المركزية/زمن استجابة القرص لـ CVM في وقت إعادة التشغيل، يمكن مراجعة سجلات النظام ضمن /home/nutanix/data/logs/sysstats logs. لاحظ أن السجلات موجودة بالطابع الزمني UTC.

 /home/nutanix/data/logs/sysstats/meminfo.INFO
/home/nutanix/data/logs/sysstats/mpstat.INFO
/home/nutanix/data/logs/sysstats/iostat.INFO

حل

أمثلة

  1. أمر CVM آخر إعادة تشغيل :
     nutanix@cvm$ آخر عملية إعادة تشغيل
    إعادة تشغيل النظام التمهيد 2.6.32-279.9.1.e الاثنين 23 ديسمبر 09:40 - 12:16 (02:36)
  1. السجلات على CVM /var/log/messages و kern.log :
     23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf في انتظار إنشاء /dev/fct0
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 جيجابايت 0000:03:00.0: مسبار fct0
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 جيجابايت 0000:03:00.0: Sector_size=512
    23 ديسمبر 09:40:06 NTNX-CVM-A kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: الجهاز يعمل كجهاز كتلة.
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: ضبط بيانات نطاق القناة على [2 .. 2047]
    23 ديسمبر 09:40:06 NTNX-CVM-A kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** تم اكتشاف إيقاف تشغيل غير نظيف، وسجل إعادة المسح. ***
    23 ديسمبر 09:40:06 NTNX-CVM-A kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: *** قد يستغرق هذا عدة دقائق.              ***
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 جيجابايت 0000:03:00.0: ************************ ***************************
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf Fusion-io ioDrive2 365 جيجابايت 0000:03:00.0: تم اكتشاف انقطاع الطاقة
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: تمت إعادة الاتصال بنجاح بعد إيقاف التشغيل غير النظيف.  (ا ف ب: 1942+228114432)
    23 ديسمبر 09:40:06 NTNX-CVM-A kernel: fioinf Fusion-io ioDrive2 365GB 0000:03:00.0: إنشاء جهاز كتلة fioa: رئيسي: 252 ثانوي: 0 حجم القطاع: 512...
    23 ديسمبر 09:40:06 نواة NTNX-CVM-A: fioa: fioa1
  1. سجلات ESXi /vmfs/volumes/xxxxxxxxx-xxxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/vmware.log :
     2013-12-23T17:35:25.959Z| فكبو-0| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-2| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-7| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-1| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-5| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-4| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-3| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)
    2013-12-23T17:35:25.960Z| فكبو-6| I120: إعادة ضبط وحدة المعالجة المركزية: ناعم (الوضع 1)

    يؤدي "إعادة تشغيل نظام التشغيل الضيف" على CVM الذي بدأ من vCentre إلى التوقيع التالي في vmware.log الخاص بـ cvm
    (لاحظ أن هذا الإدخال لا يحدث في vmware.log إذا تمت إعادة تشغيل CVM بأمان من داخل مجموعة Nutanix عبر ترقية AOS أو الأمر cvm_shutdown)
     2022-03-01T23:24:30.638Z| فمكس| I125: الأدوات: إرسال طلب تغيير الحالة "OS_Reboot" (الحالة = 2).
    

    يؤدي "Shutdown Guest OS" على CVM الذي يبدأ من vCentre إلى التوقيع التالي في vmware.log الخاص بـ cvm
    (لاحظ أن هذا الإدخال لا يحدث في vmware.log إذا تم إيقاف تشغيل CVM بأمان من داخل مجموعة Nutanix عبر ترقية AOS أو أمر cvm_shutdown)
     2022-03-02T00:22:15.448Z| فمكس| I125: الأدوات: إرسال طلب تغيير الحالة "OS_Halt" (الحالة = 1).
    

    مثال آخر على vmware.log (استنادًا إلى خطأ VMware رقم 676321):
     17-07-2013T22:35:53.907Z| فكبو-0| W110: ذعر الشاشة: vcpu-7: تأكيد vmcore/exts/hv/vt/hv-vt.c:1933 bugNr=676321
    17-07-2013T22:35:53.907Z| فكبو-0| I120: التفريغ الأساسي مع الإصدار build-838463
    17-07-2013T22:35:53.907Z| فكبو-6| I120: الخروج من vcpu-6
    17-07-2013T22:35:53.907Z| فكبو-4| I120: الخروج من vcpu-7
    17-07-2013T22:35:53.907Z| فكبو-0| W110: الملف الأساسي لشاشة الكتابة "/vmfs/volumes/50630639-74fa7b98-830d-0025904c8605/ServiceVM-1.24_Ubuntu/vmmcores.gz"
    

    سجل vmware.log آخر (تكوين خاطئ لـ EPT - VMware KB 1036775 ):
     2013-05-03T17:27:43.262Z| فكبو-1| ذعر الشاشة: vcpu-0: التكوين الخاطئ لـ EPT: PA b49b405b0
    2013-05-03T17:27:43.262Z| فكبو-1| التفريغ الأساسي مع البناء 623860
    2013-05-03T17:27:43.262Z| فكبو-1| الملف الأساسي لشاشة الكتابة "/vmfs/volumes/51548019-3efd569e-d4d8-002590840e37/ServiceVM/vmmcores.gz"
    2013-05-03T17:27:43.262Z| فكبو-6| الخروج من vcpu-6
    
  1. تعرض سجلات ESXi /vmfs/volumes/xxxxxxxxx-xxxxxxxxx-xxxx-xxxxxxxxxxxx/ServiceVM*/ServiceVM.out.0 مشكلة driver jbd2/fio في هذا المثال:
     آخر ملف sysfs: /sys/devices/pci0000:00/0000:00:10.0/host2/target2:0:2/2:0:2:0/block/sdb/queue/scheduler CPU 0 الوحدات المرتبطة في: be2iscsi iscsi_boot_sysfs bnx2i cnic uio cxgb4i cxgb4 cxgb3i libcxgbi cxgb3 mdio ib_iser rdma_cm ib_cm iw_cm ib_sa ib_mad ib_core ib_addr i Pid: 3403، comm: jbd2/fioa1-8 ملوث: P --------------- 2.6.32 -279.9.1.el6.nutanix.x86_64 #1 VMware, Inc. VMware Virtual Platform/440BX Desktop RIP: 0010:[
        
        ] [
         
        
         ] jbd2_journal_commit_transaction+0x120c/0x14b0 [jbd2] RSP: 0018: ffff880431113d30 eflags: 00010246 Rax: FF000 RSI: 000000000000000286 RDI: FFFF8804330D9800 RBP: FFFF880431113E60 R08: R12: 0000000000000000 R13: FFFF8804330D9800 R14: FFFF8804220A4AE0 R15: FFFF8804330D9898 FS: 000000000000 0018 ES: 0018 CR0: 000000008005003B CR2: 00007FBECA8A4916 CR3: 0000000378F3000 CR4: 00000000000006F0 DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 عملية jbd 2/fioa1-8 (رقم المنتج: 3403، Threadinfo ffff880431112000، المهمة ffff8804220a4ae0) المكدس:
         
        
        
        
       
  1. لمعرفة أي فشل حدث مؤخرًا في محرك الأقراص الثابتة، تحقق من سجل hades.out.

    إذا كان SSD هو محرك البيانات التعريفية، فسيقوم AOS بإجبار CVM على إعادة التشغيل. وأيضًا، إذا واجه AOS مشكلة في إزالة محرك الأقراص الثابتة وتم تشغيل الإزالة القسرية بواسطة hades، فسيتم إعادة تشغيل CVM.

    مخرجات ServiceVM.out.0 ( Bug 735768 ):

     خطأ النواة في fs/jbd2/commit.c:353! كود تشغيل غير صالح: 0000 [#1] SMP آخر ملف sysfs: /sys/devices/pci0000:00/0000:00:15.0/0000:03:00.0/host2/port-2:2/end_device-2:2/target2: 0:2/2:0:2:0/block/sdc/dev وحدة المعالجة المركزية 1

    ملخص ESXi لمعرفة ما إذا كان مضيف ESXi قد تمت إعادة تشغيله:
     [root@esxi]# grep -i bootstop /var/log/vmksummary.log 2015-02-07T02:54:17Z bootstop: المضيف قيد إيقاف التشغيل 2015-02-07T08:43:04Z bootstop: تم تمهيد المضيف

    أهف:
     سجلات تمهيد النظام من سجلات التدقيق على برنامج Hypervisor
    
     11277 type=SYSTEM_BOOT msg=audit(1556350213.112:4): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='init exe='/sbin/telinit' اسم المضيف=? العنوان =؟ المحطة = دقة وحدة التحكم = النجاح'
    11278 type=SYSTEM_RUNLEVEL msg=audit(1556350213.112:5): pid=4405 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:initrc_t:s0 msg='old-level=N new-level=3 exe=" /sbin/telinit" اسم المضيف =؟ العنوان =؟ المحطة = دقة وحدة التحكم = النجاح SS'
    

    السيرة الذاتية:
     nutanix@cvm$ sudo grep -i "kmsg begin" /home/log/messages 2015-01-30T10:59:39.957663-08:00 نواة NTNX-A-CVM: imklog 5.8.10، مصدر السجل = /proc/kmsg بدأت. 2015-02-07T00:46:55.164530-08:00 نواة NTNX-A-CVM: imklog 5.8.10، مصدر السجل = /proc/kmsg بدأ.

    قم بالتمرير بضعة أسطر أعلاه للحصول على مزيد من المعلومات:
     nutanix@cvm$ Sudo grep -i -B 5 "kmsg begin" /home/log/messages 2015-02-06T18:00:02.539862-08:00 NTNX-C-CVM audispd: العقدة=NTNX-C-CVM type= EOE msg=audit(1423274402.537:7498): 2015-02-06T18:00:02.578946-08:00 NTNX-C-CVM audispd: العقدة=NTNX-C-CVM type=SYSCALL msg=audit(1423274402.577:7499): القوس =c000003e syscall=90 نجاح=نعم خروج=0 a0=251b700 a1=1ed a2=7f1ddb485a08 a3=7fff69bbdf30 items=1 ppid=8586 pid=9025 auid=1000 uid=1000 euid=1000 suid=1000 المعرف=1000 egid = 1000 sgid = 1000 fsgid = 1000 tty = (none) ses = 150912 comm = "python" exe = "/usr/bin/python" subj = unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key = " perm_mod" 2015-02-06T18:00:02.585360-08:00 NTNX-C-CVM audispd: العقدة = NTNX-C-CVM type=SYSCALL msg=audit(1423274402.584:7500): القوس=c000003e syscall=90 نجاح=نعم خروج=0 a0=2894550 a1=1ed a2=7f1e2b955a08 a3=7fff0e433a48 items=1 ppid=8570 pid=9026 auid=1000 uid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid= 1000 فسجيد= 1000 tty = (none) ses = 150897 comm = "python" exe = "/usr/bin/python" subj = unconfined_u:unconfined_r:unconfined_t:s0-s0:c0.c1023 key = "perm_mod" 2015-02-06T18: 00:02.585392-08:00 NTNX-C-CVM audispd: العقدة=NTNX-C-CVM type=PATH msg=audit(1423274402.584:7500): item=0 name="/home/nutanix/.python-eggs/simplejson -3.4.1-py2.6-linux-x86_64.egg-tmp/simplejson/tmp0cHe62.$extract" inode=365 dev=09:02 mode=0100600 ouid=1000 ogi=1000 rdev=00:00 obj=unconfined_u: object_r:user_home_t:s0 nametype=NORMAL

بالنسبة للإصدارات الأحدث من CVM، قد يتعين عليك استخدام grep لـ "rsyslogd.*start" بدلاً من "kmsg begin":

 nutanix@cvm$ sudo grep -i "rsyslogd.*start" /var/log/messages 2018-03-06T03:28:13.648673-07:00 NTNX-C-CVM rsyslogd: [البرنامج الأصلي = "rsyslogd" swVersion = " 7.4.7" x-pid="1273" x-info="http:// www .rsyslog.com"] ابدأ 2018-03-06T03:28:13.647853-07:00 NTNX-C-CVM rsyslogd-2307: تحذير: ~ تم إهمال الإجراء، فكر في استخدام عبارة "stop" بدلاً من ذلك [حاول http:// www .rsyslog.com/e/2307 ] 2018-03-06T03:28:13.651494-07:00 NTNX-C-CVM systemd [1]: بدء تشغيل خدمة تسجيل النظام.

معلومات إضافية

معرف المستند:HT516509
تاريخ النشر الأصلي:05/21/2024
تاريخ آخر تعديل:05/30/2024