NCC Sağlık Kontrolü: Cluster_services_status
NCC Sağlık Kontrolü: Cluster_services_status
NCC Sağlık Kontrolü: Cluster_services_status
Tanım
NCC sağlık kontrolü Cluster_services_status, Denetleyici VM (CVM) hizmetlerinin küme genelinde yakın zamanda yeniden başlatılıp başlatılmadığını doğrular.
Kontrol edilen hizmetleri görüntülemek için burayı tıklayın
NCC-3.10.1'den önce
Bu kontrol her 4 saatte bir gerçekleştirilir ve son 24 saat içinde oluşturulan FATAL günlükleri arar.
Bu NCC kontrolü, mevcut hizmet durumu ve önceki çökmeler üzerinde kontroller gerçekleştirse de, bu kontrol, yalnızca bir veya daha fazla hizmetin birden fazla kez çökmesi ve son 24 saat içinde (tek bir Denetleyicide 5 kez) bir FATAL günlüğü oluşturması durumunda FAIL durumuyla sonuçlanır. VM veya küme genelinde 10 kez).
NCC-3.10.1'de yayınlayın
Bu kontrol her 10 dakikada bir gerçekleştirilir ve son 24 saat içinde oluşturulan FATAL günlükleri arar.
Aşağıdaki iki durumda kontrol başarısız olur:
- Bir hizmet FATAL'leri 10'dan fazla düğüme sahip kümeler için bir günde küme genelinde 10 kez (OR) Bir gündeki FATAL'lerin sayısı, 10'a kadar düğüme sahip kümeler için kümedeki düğüm sayısından daha fazla veya ona eşittir düğümler.
- Bir hizmet, tek bir CVM'de bir günde 5 kez FATAL'lar oluşturur.
Kümedeki tek bir düğüm, kümedeki diğer tüm CVM'ler adına Cluster_services_status kontrolünün FAIL durumunu bildirir. FATAL günlüklerini araştırırken, FAIL durum mesajındaki etkilenen hizmetlerin listesini bir kılavuz olarak kullanarak tüm CVM'lere baktığınızdan emin olun.
Kümede yakın zamanda bakım etkinlikleri gerçekleştirildiyse, bu denetimin FAIL durumu hizmetlerin kararsız olduğunu gösterir ve bu da küme performansını veya hizmet verilebilirliğini potansiyel olarak etkileyebilir.
NCC sürüm 3.5.1'den itibaren bu kontrol, ölçeklenebilir bilgisayar kümesindeki Prism Central VM'ler için geçerlidir.
NCC Kontrolünü Çalıştırma
Bu kontrolü, NCC Sağlık Kontrollerinin tamamının bir parçası olarak çalıştırın.
nutanix@cvm$ ncc sağlık_kontrolleri run_all
Veya bu kontrolü ayrı ayrı çalıştırabilirsiniz.
nutanix@cvm$ ncc sağlık_kontrolleri sistem_kontrolleri küme_hizmetleri_durumu
Kontrolleri Prism web konsolunun Sağlık sayfasından da çalıştırabilirsiniz: Eylemler > Kontrolleri Çalıştır öğesini seçin. Tüm kontroller'i seçin ve Çalıştır'a tıklayın.
Bu denetim varsayılan olarak her 10 dakikada bir çalışacak şekilde planlanmıştır.
Bu kontrol, 1 başarısızlıktan sonra bir uyarı oluşturacaktır.
Örnek çıktı
Durum için: GEÇTİ
Tüm düğümlerde /health_checks/system_checks/cluster_services_status çalıştırma [ PASS ]
-------------------------------------------------- -----------------------+
+---------------+
| Eyalet | Sayısı |
+---------------+
| Geçiş | 1 |
| Toplam | 1 |
+---------------+
/home/nutanix/data/logs/ncc-output-latest.log dosyasına yazılan eklenti çıktısı
Durum için: BAŞARISIZ
Cluster_services_status için ayrıntılı bilgi:
Düğüm xxxx:
BAŞARISIZ: Son 24 saat içinde boşaltılan bileşen çekirdeği: ['cerebro', 'curator']
Cluster_services_status ile ilgili ayrıntılar için KB 3378'e (http://portal.nutanix.com/kb/3378) bakın veya şunu kullanarak yeniden kontrol edin: ncc health_checks system_checkscluster_services_status
Çıkış mesajı
Kimliği kontrol et | 3034 |
Tanım | Küme genelinde hizmetlerin yakın zamanda yeniden başlatılıp başlatılmadığını kontrol edin. |
Başarısızlık nedenleri | Bu uyarı, kümedeki bir veya daha fazla hizmetin yeniden başlatıldığını gösterir. |
Çözünürlükler | Bu uyarı bir kez veya nadiren ortaya çıkıyorsa herhangi bir işlem yapılmasına gerek yoktur. Sık sık oluyorsa Nutanix desteğiyle iletişime geçin. |
Darbe | Küme performansı önemli ölçüde düşebilir. Aynı koşula sahip birden fazla hizmet olması durumunda küme, G/Ç isteklerine hizmet veremez duruma gelebilir. |
Uyarı Kimliği | A3034 |
Uyarı Akıllı Başlığı | Küme Hizmeti Sık Sık Yeniden Başlatılıyor |
Uyarı Başlığı | Küme Hizmeti hizmetleri Sıklıkla Yeniden Başlatılıyor |
Uyarı mesajı | Tüm Denetleyici VM'lerinde hizmetlerin birden çok hizmet yeniden başlatılması gerçekleşti. Bu hizmetlerin en son çökmesi sırasıyla zaman damgalarında meydana geldi. |
Çözüm
Cluster_services_status denetimi FAIL durumunu döndürürse aşağıdakileri yapın:
- Tüm Denetleyici VM'lerinde oluşturulan çekirdek dökümlerin listesini kontrol edin.:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Son 24 saatin günlük dosyalarını toplamak için herhangi bir Denetleyici VM'sinden logbay'ı çalıştırın. ( Logbay hakkında daha fazla bilgi için bkz. Nutanix KB 6691. )
nutanix@cvm$ logbay toplama --aggregate=true --duration=-24h
Bu , /home/nutanix/data/logbay/bundles/ dizininde bir zip dosyası oluşturur.
Not: Birleştirilmiş günlük paketi, 24 saatlik günlük toplama için daha büyük kümelerde çok büyük olabilir. Böyle bir durumda logbay'ı --aggregate seçeneği olmadan kullanın ve her CVM'den günlük paketlerini destek yazışmasına yükleyin.
- Aşağıdakileri doğrulayın ve çekirdek dökümleri oluşturan CVM'de olması gereken *.stack_trace.txt.gz dosyasına sahip dosyaları arayın.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Nutanix Destek Portalında yeni bir vaka oluşturun ve yukarıdaki komutların çıktısını ve logbay paketini destek vakasına ekleyin.
Ek Bilgiler
- Nutanix KB 3378 - Nutanix Portalındaki orijinal belge
- Nutanix açılış sayfası
- Lenovo ISG Destek Planı - ThinkAgile HX Cihazı ve Lenovo Converged HX Serisi