التحقق من صحة NCC:cluster_services_status
التحقق من صحة NCC:cluster_services_status
التحقق من صحة NCC:cluster_services_status
وصف
يتحقق فحص صحة NCC Cluster_services_status من إعادة تشغيل خدمات Controller VM (CVM) مؤخرًا عبر المجموعة.
انقر هنا لعرض الخدمات التي تم فحصها
قبل NCC-3.10.1
يتم تنفيذ هذا الفحص كل 4 ساعات ويبحث عن السجلات الفادحة التي تم إنشاؤها خلال الـ 24 ساعة الماضية.
على الرغم من أن فحص NCC هذا يقوم بإجراء فحوصات على حالة الخدمة الحالية والأعطال السابقة، إلا أن هذا التحقق يؤدي إلى حالة فشل فقط في حالة تعطل خدمة واحدة أو أكثر عدة مرات وإنشاء سجل فادح خلال الـ 24 ساعة الماضية (5 مرات على وحدة تحكم واحدة VM أو 10 مرات عبر المجموعة).
أرسل إلى NCC-3.10.1
يتم تنفيذ هذا الفحص كل 10 دقائق ويبحث عن السجلات الفادحة التي تم إنشاؤها خلال آخر 24 ساعة.
يفشل الفحص في الحالتين التاليتين:
- FATALs خدمة 10 مرات عبر المجموعة، في يوم واحد للمجموعات التي تحتوي على أكثر من 10 عقد (OR) عدد FATALs، في يوم واحد، أكبر من أو يساوي عدد العقد في المجموعة، للمجموعات التي تحتوي على ما يصل إلى 10 العقد.
- خدمة قاتلة 5 مرات في CVM واحد، في يوم واحد.
تُبلغ عقدة واحدة في المجموعة عن حالة الفشل في فحص حالة خدمات المجموعة نيابةً عن جميع أجهزة CVM الأخرى في المجموعة. عند التحقق من وجود سجلات FATAL، تأكد من الاطلاع على كافة نماذج CVM، باستخدام قائمة الخدمات المتأثرة من رسالة حالة FAIL كدليل.
إذا تم تنفيذ أنشطة الصيانة مؤخرًا على المجموعة، فإن حالة الفشل لهذا الفحص تشير إلى أن الخدمات غير مستقرة، مما قد يؤثر على أداء المجموعة أو إمكانية الخدمة.
بدءًا من الإصدار 3.5.1 من NCC، ينطبق هذا الفحص على أجهزة Prism Central VM الموجودة في مجموعة أجهزة الكمبيوتر الشخصية القابلة للتوسع.
تشغيل فحص NCC
قم بإجراء هذا الفحص كجزء من عمليات التحقق من صحة NCC الكاملة.
nutanix@cvm$ ncc health_checks run_all
أو يمكنك تشغيل هذا الفحص بشكل فردي.
nutanix@cvm$ ncc health_checks system_checkscluster_services_status
يمكنك أيضًا تشغيل عمليات التحقق من صفحة صحة وحدة تحكم الويب Prism: حدد الإجراءات > تشغيل عمليات التحقق . حدد كافة عمليات التحقق ثم انقر فوق تشغيل .
تتم جدولة هذا التحقق ليتم تشغيله كل 10 دقائق بشكل افتراضي.
سيؤدي هذا الفحص إلى إنشاء تنبيه بعد فشل واحد.
إخراج العينة
للحالة: تمرير
تشغيل /health_checks/system_checks/cluster_services_status على كافة العقد [PASS]
-------------------------------------------------- ----------------------+
+--------------+
| الدولة | عد |
+--------------+
| تمرير | 1 |
| المجموع | 1 |
+--------------+
يتم كتابة إخراج البرنامج المساعد إلى /home/nutanix/data/logs/ncc-output-latest.log
للحالة: فاشل
معلومات تفصيلية عن حالة_الخدمات_العنقودية:
العقدة xxxx:
فشل: تم التخلص من المكونات الأساسية خلال 24 ساعة الماضية: ['cerebro', 'curator']
ارجع إلى KB 3378 (http://portal.nutanix.com/kb/3378) للحصول على تفاصيل حولcluster_services_status أو أعد التحقق باستخدام: ncc health_checks system_checkscluster_services_status
رسائل الإخراج
التحقق من الهوية | 3034 |
وصف | تحقق مما إذا تم إعادة تشغيل الخدمات مؤخرًا عبر المجموعة. |
أسباب الفشل | يشير هذا التنبيه إلى إعادة تشغيل خدمة واحدة أو أكثر في المجموعة. |
القرارات | إذا حدث هذا التنبيه مرة واحدة أو بشكل غير متكرر، فلا يلزم اتخاذ أي إجراء. إذا كان الأمر متكررًا، فاتصل بدعم Nutanix. |
تأثير | قد ينخفض أداء الكتلة بشكل ملحوظ. في حالة وجود خدمات متعددة بنفس الحالة، قد تصبح المجموعة غير قادرة على خدمة طلبات الإدخال/الإخراج. |
معرف التنبيه | A3034 |
تنبيه العنوان الذكي | إعادة تشغيل خدمة الكتلة بشكل متكرر |
عنوان التنبيه | إعادة تشغيل خدمات خدمة الكتلة بشكل متكرر |
رسالة تنبيه | كانت هناك عمليات إعادة تشغيل متعددة للخدمات عبر جميع أجهزة (أجهزة) وحدة التحكم الافتراضية. حدث آخر تعطل لهذه الخدمات في الطوابع الزمنية على التوالي. |
حل
إذا أدى فحص cluster_services_status إلى إرجاع حالة فشل، فقم بما يلي:
- تحقق من قائمة عمليات التفريغ الأساسية التي تم إنشاؤها على جميع أجهزة التحكم الافتراضية:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- قم بتشغيل logbay من أي وحدة تحكم VM لتجميع ملفات السجل لآخر 24 ساعة. (لمزيد من المعلومات حول logbay ، راجع Nutanix KB 6691 .)
nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
يؤدي هذا إلى إنشاء ملف مضغوط في الدليل /home/nutanix/data/logbay/bundles/ .
ملاحظة: قد تصبح حزمة السجل المجمعة كبيرة جدًا في المجموعات الأكبر حجمًا بحيث لا يمكن جمع السجلات على مدار 24 ساعة. في مثل هذه الحالة، استخدم logbay بدون خيار --aggregate وقم بتحميل حزم السجل من كل CVM إلى حالة الدعم.
- تحقق مما يلي وابحث عن الملفات التي تحتوي على *.stack_trace.txt.gz والتي يجب أن تكون موجودة على CVM الذي قام بإنشاء عمليات تفريغ أساسية.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- أنشئ حالة جديدة على بوابة دعم Nutanix وأرفق مخرجات الأوامر المذكورة أعلاه وحزمة logbay بحالة الدعم.
معلومات إضافية
- Nutanix KB 3378 - المستند الأصلي في بوابة Nutanix
- الصفحة المقصودة لـ Nutanix
- خطة دعم Lenovo ISG - جهاز ThinkAgile HX وسلسلة Lenovo Converged HX