NCC Sağlık Kontrolü: Cluster_services_status

NCC Sağlık Kontrolü: Cluster_services_status

NCC Sağlık Kontrolü: Cluster_services_status

Bu makine tarafından çevirisi yapılmış bir makaledir, orijinal İngilizce halini görmek için lütfen buraya tıklayın.

Tanım

NCC sağlık kontrolü Cluster_services_status, Denetleyici VM (CVM) hizmetlerinin küme genelinde yakın zamanda yeniden başlatılıp başlatılmadığını doğrular.

Kontrol edilen hizmetleri görüntülemek için burayı tıklayın

NCC-3.10.1'den önce

Bu kontrol her 4 saatte bir gerçekleştirilir ve son 24 saat içinde oluşturulan FATAL günlükleri arar.

Bu NCC kontrolü, mevcut hizmet durumu ve önceki çökmeler üzerinde kontroller gerçekleştirse de, bu kontrol, yalnızca bir veya daha fazla hizmetin birden fazla kez çökmesi ve son 24 saat içinde (tek bir Denetleyicide 5 kez) bir FATAL günlüğü oluşturması durumunda FAIL durumuyla sonuçlanır. VM veya küme genelinde 10 kez).

NCC-3.10.1'de yayınlayın

Bu kontrol her 10 dakikada bir gerçekleştirilir ve son 24 saat içinde oluşturulan FATAL günlükleri arar.

Aşağıdaki iki durumda kontrol başarısız olur:

  • Bir hizmet FATAL'leri 10'dan fazla düğüme sahip kümeler için bir günde küme genelinde 10 kez (OR) Bir gündeki FATAL'lerin sayısı, 10'a kadar düğüme sahip kümeler için kümedeki düğüm sayısından daha fazla veya ona eşittir düğümler.
  • Bir hizmet, tek bir CVM'de bir günde 5 kez FATAL'lar oluşturur.

Kümedeki tek bir düğüm, kümedeki diğer tüm CVM'ler adına Cluster_services_status kontrolünün FAIL durumunu bildirir. FATAL günlüklerini araştırırken, FAIL durum mesajındaki etkilenen hizmetlerin listesini bir kılavuz olarak kullanarak tüm CVM'lere baktığınızdan emin olun.

Kümede yakın zamanda bakım etkinlikleri gerçekleştirildiyse, bu denetimin FAIL durumu hizmetlerin kararsız olduğunu gösterir ve bu da küme performansını veya hizmet verilebilirliğini potansiyel olarak etkileyebilir.

NCC sürüm 3.5.1'den itibaren bu kontrol, ölçeklenebilir bilgisayar kümesindeki Prism Central VM'ler için geçerlidir.

NCC Kontrolünü Çalıştırma

Bu kontrolü, NCC Sağlık Kontrollerinin tamamının bir parçası olarak çalıştırın.

 nutanix@cvm$ ncc sağlık_kontrolleri run_all

Veya bu kontrolü ayrı ayrı çalıştırabilirsiniz.

 nutanix@cvm$ ncc sağlık_kontrolleri sistem_kontrolleri küme_hizmetleri_durumu

Kontrolleri Prism web konsolunun Sağlık sayfasından da çalıştırabilirsiniz: Eylemler > Kontrolleri Çalıştır öğesini seçin. Tüm kontroller'i seçin ve Çalıştır'a tıklayın.

Bu denetim varsayılan olarak her 10 dakikada bir çalışacak şekilde planlanmıştır.
Bu kontrol, 1 başarısızlıktan sonra bir uyarı oluşturacaktır.

Örnek çıktı

Durum için: GEÇTİ

 Tüm düğümlerde /health_checks/system_checks/cluster_services_status çalıştırma [ PASS ]
-------------------------------------------------- -----------------------+
+---------------+
| Eyalet | Sayısı |
+---------------+
| Geçiş | 1 |
| Toplam | 1 |
+---------------+
/home/nutanix/data/logs/ncc-output-latest.log dosyasına yazılan eklenti çıktısı

Durum için: BAŞARISIZ

 Cluster_services_status için ayrıntılı bilgi:
 Düğüm xxxx:
 BAŞARISIZ: Son 24 saat içinde boşaltılan bileşen çekirdeği: ['cerebro', 'curator']
 Cluster_services_status ile ilgili ayrıntılar için KB 3378'e (http://portal.nutanix.com/kb/3378) bakın veya şunu kullanarak yeniden kontrol edin: ncc health_checks system_checkscluster_services_status

Çıkış mesajı

Kimliği kontrol et 3034
Tanım Küme genelinde hizmetlerin yakın zamanda yeniden başlatılıp başlatılmadığını kontrol edin.
Başarısızlık nedenleri Bu uyarı, kümedeki bir veya daha fazla hizmetin yeniden başlatıldığını gösterir.
Çözünürlükler Bu uyarı bir kez veya nadiren ortaya çıkıyorsa herhangi bir işlem yapılmasına gerek yoktur. Sık sık oluyorsa Nutanix desteğiyle iletişime geçin.
Darbe Küme performansı önemli ölçüde düşebilir. Aynı koşula sahip birden fazla hizmet olması durumunda küme, G/Ç isteklerine hizmet veremez duruma gelebilir.
Uyarı Kimliği A3034
Uyarı Akıllı Başlığı Küme Hizmeti Sık Sık Yeniden Başlatılıyor
Uyarı Başlığı Küme Hizmeti hizmetleri Sıklıkla Yeniden Başlatılıyor
Uyarı mesajı Tüm Denetleyici VM'lerinde hizmetlerin birden çok hizmet yeniden başlatılması gerçekleşti. Bu hizmetlerin en son çökmesi sırasıyla zaman damgalarında meydana geldi.

Çözüm

Cluster_services_status denetimi FAIL durumunu döndürürse aşağıdakileri yapın:

  1. Tüm Denetleyici VM'lerinde oluşturulan çekirdek dökümlerin listesini kontrol edin.:
     nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
  1. Son 24 saatin günlük dosyalarını toplamak için herhangi bir Denetleyici VM'sinden logbay'ı çalıştırın. ( Logbay hakkında daha fazla bilgi için bkz. Nutanix KB 6691. )
     nutanix@cvm$ logbay toplama --aggregate=true --duration=-24h
    Bu , /home/nutanix/data/logbay/bundles/ dizininde bir zip dosyası oluşturur.
    Not: Birleştirilmiş günlük paketi, 24 saatlik günlük toplama için daha büyük kümelerde çok büyük olabilir. Böyle bir durumda logbay'ı --aggregate seçeneği olmadan kullanın ve her CVM'den günlük paketlerini destek yazışmasına yükleyin.
  1. Aşağıdakileri doğrulayın ve çekirdek dökümleri oluşturan CVM'de olması gereken *.stack_trace.txt.gz dosyasına sahip dosyaları arayın.
     nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
  1. Nutanix Destek Portalında yeni bir vaka oluşturun ve yukarıdaki komutların çıktısını ve logbay paketini destek vakasına ekleyin.

Ek Bilgiler

Belge Numarası:HT516511
İlk Yayın Tarihi:05/21/2024
Son Değişiklik Tarihi:05/30/2024