التحقق من صحة NCC:cluster_services_status

هذه المقالة مترجمة باستخدام الترجمة الآلية، الرجاء النقر هنا لعرض الإصدار الانجليزي الأصلي.

وصف

يتحقق فحص صحة NCC Cluster_services_status من إعادة تشغيل خدمات Controller VM (CVM) مؤخرًا عبر المجموعة.

قبل NCC-3.10.1

يتم تنفيذ هذا الفحص كل 4 ساعات ويبحث عن السجلات الفادحة التي تم إنشاؤها خلال الـ 24 ساعة الماضية.

على الرغم من أن فحص NCC هذا يقوم بإجراء فحوصات على حالة الخدمة الحالية والأعطال السابقة، إلا أن هذا التحقق يؤدي إلى حالة فشل فقط في حالة تعطل خدمة واحدة أو أكثر عدة مرات وإنشاء سجل فادح خلال الـ 24 ساعة الماضية (5 مرات على وحدة تحكم واحدة VM أو 10 مرات عبر المجموعة).

أرسل إلى NCC-3.10.1

يتم تنفيذ هذا الفحص كل 10 دقائق ويبحث عن السجلات الفادحة التي تم إنشاؤها خلال آخر 24 ساعة.

يفشل الفحص في الحالتين التاليتين:

FATALs خدمة 10 مرات عبر المجموعة، في يوم واحد للمجموعات التي تحتوي على أكثر من 10 عقد (OR) عدد FATALs، في يوم واحد، أكبر من أو يساوي عدد العقد في المجموعة، للمجموعات التي تحتوي على ما يصل إلى 10 العقد.
خدمة قاتلة 5 مرات في CVM واحد، في يوم واحد.

تُبلغ عقدة واحدة في المجموعة عن حالة الفشل في فحص حالة خدمات المجموعة نيابةً عن جميع أجهزة CVM الأخرى في المجموعة. عند التحقق من وجود سجلات FATAL، تأكد من الاطلاع على كافة نماذج CVM، باستخدام قائمة الخدمات المتأثرة من رسالة حالة FAIL كدليل.

إذا تم تنفيذ أنشطة الصيانة مؤخرًا على المجموعة، فإن حالة الفشل لهذا الفحص تشير إلى أن الخدمات غير مستقرة، مما قد يؤثر على أداء المجموعة أو إمكانية الخدمة.

بدءًا من الإصدار 3.5.1 من NCC، ينطبق هذا الفحص على أجهزة Prism Central VM الموجودة في مجموعة أجهزة الكمبيوتر الشخصية القابلة للتوسع.

تشغيل فحص NCC

قم بإجراء هذا الفحص كجزء من عمليات التحقق من صحة NCC الكاملة.

 nutanix@cvm$ ncc health_checks run_all

أو يمكنك تشغيل هذا الفحص بشكل فردي.

 nutanix@cvm$ ncc health_checks system_checkscluster_services_status

يمكنك أيضًا تشغيل عمليات التحقق من صفحة صحة وحدة تحكم الويب Prism: حدد الإجراءات > تشغيل عمليات التحقق . حدد كافة عمليات التحقق ثم انقر فوق تشغيل .

تتم جدولة هذا التحقق ليتم تشغيله كل 10 دقائق بشكل افتراضي.
سيؤدي هذا الفحص إلى إنشاء تنبيه بعد فشل واحد.

إخراج العينة

للحالة: تمرير

 تشغيل /health_checks/system_checks/cluster_services_status على كافة العقد [PASS]
-------------------------------------------------- ----------------------+
+--------------+
| الدولة | عد |
+--------------+
| تمرير | 1 |
| المجموع | 1 |
+--------------+
يتم كتابة إخراج البرنامج المساعد إلى /home/nutanix/data/logs/ncc-output-latest.log

للحالة: فاشل

 معلومات تفصيلية عن حالة_الخدمات_العنقودية:
 العقدة xxxx:
 فشل: تم التخلص من المكونات الأساسية خلال 24 ساعة الماضية: ['cerebro', 'curator']
 ارجع إلى KB 3378 (http://portal.nutanix.com/kb/3378) للحصول على تفاصيل حولcluster_services_status أو أعد التحقق باستخدام: ncc health_checks system_checkscluster_services_status

رسائل الإخراج

التحقق من الهوية	3034
وصف	تحقق مما إذا تم إعادة تشغيل الخدمات مؤخرًا عبر المجموعة.
أسباب الفشل	يشير هذا التنبيه إلى إعادة تشغيل خدمة واحدة أو أكثر في المجموعة.
القرارات	إذا حدث هذا التنبيه مرة واحدة أو بشكل غير متكرر، فلا يلزم اتخاذ أي إجراء. إذا كان الأمر متكررًا، فاتصل بدعم Nutanix.
تأثير	قد ينخفض أداء الكتلة بشكل ملحوظ. في حالة وجود خدمات متعددة بنفس الحالة، قد تصبح المجموعة غير قادرة على خدمة طلبات الإدخال/الإخراج.
معرف التنبيه	A3034
تنبيه العنوان الذكي	إعادة تشغيل خدمة الكتلة بشكل متكرر
عنوان التنبيه	إعادة تشغيل خدمات خدمة الكتلة بشكل متكرر
رسالة تنبيه	كانت هناك عمليات إعادة تشغيل متعددة للخدمات عبر جميع أجهزة (أجهزة) وحدة التحكم الافتراضية. حدث آخر تعطل لهذه الخدمات في الطوابع الزمنية على التوالي.

حل

إذا أدى فحص cluster_services_status إلى إرجاع حالة فشل، فقم بما يلي:

تحقق من قائمة عمليات التفريغ الأساسية التي تم إنشاؤها على جميع أجهزة التحكم الافتراضية:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

قم بتشغيل logbay من أي وحدة تحكم VM لتجميع ملفات السجل لآخر 24 ساعة. (لمزيد من المعلومات حول logbay ، راجع Nutanix KB 6691 .)
```
 nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
```
يؤدي هذا إلى إنشاء ملف مضغوط في الدليل /home/nutanix/data/logbay/bundles/ .
ملاحظة: قد تصبح حزمة السجل المجمعة كبيرة جدًا في المجموعات الأكبر حجمًا بحيث لا يمكن جمع السجلات على مدار 24 ساعة. في مثل هذه الحالة، استخدم logbay بدون خيار --aggregate وقم بتحميل حزم السجل من كل CVM إلى حالة الدعم.

تحقق مما يلي وابحث عن الملفات التي تحتوي على *.stack_trace.txt.gz والتي يجب أن تكون موجودة على CVM الذي قام بإنشاء عمليات تفريغ أساسية.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

أنشئ حالة جديدة على بوابة دعم Nutanix وأرفق مخرجات الأوامر المذكورة أعلاه وحزمة logbay بحالة الدعم.

معلومات إضافية

Nutanix KB 3378 - المستند الأصلي في بوابة Nutanix
الصفحة المقصودة لـ Nutanix
خطة دعم Lenovo ISG - جهاز ThinkAgile HX وسلسلة Lenovo Converged HX

معرف المستند:HT516511

تاريخ النشر الأصلي:05/21/2024

تاريخ آخر تعديل:05/30/2024