Pemeriksaan Kesehatan NCC: cluster_services_status
Pemeriksaan Kesehatan NCC: cluster_services_status
Pemeriksaan Kesehatan NCC: cluster_services_status
Keterangan
Pemeriksaan kesehatan NCC cluster_services_status memverifikasi apakah layanan Controller VM (CVM) baru-baru ini dimulai ulang di seluruh cluster.
Klik di sini untuk menampilkan layanan yang diperiksa
Sebelum NCC-3.10.1
Pemeriksaan ini dijalankan setiap 4 jam dan mencari log FATAL yang dihasilkan dalam 24 jam terakhir.
Meskipun pemeriksaan NCC ini melakukan pemeriksaan pada status layanan saat ini dan kerusakan sebelumnya, pemeriksaan ini menghasilkan status FAIL hanya jika satu atau lebih layanan mengalami kerusakan beberapa kali dan menghasilkan log FATAL dalam 24 jam terakhir (5 kali pada satu Pengontrol VM atau 10 kali di cluster).
Posting ke NCC-3.10.1
Pemeriksaan ini dijalankan setiap 10 menit dan mencari log FATAL yang dihasilkan dalam 24 jam terakhir.
Pemeriksaan gagal dalam dua kasus berikut:
- Layanan FATAL sebanyak 10 kali di seluruh cluster, dalam satu hari untuk cluster yang memiliki lebih dari 10 node (OR) Jumlah FATAL, dalam satu hari, lebih besar atau sama dengan jumlah node dalam cluster, untuk cluster yang memiliki hingga 10 node.
- Layanan FATAL 5 kali dalam satu CVM, dalam satu hari.
Sebuah node di cluster melaporkan status FAIL dari pemeriksaan cluster_services_status atas nama semua CVM lain di cluster. Saat menyelidiki log FATAL, pastikan Anda melihat semua CVM, menggunakan daftar layanan yang terpengaruh dari pesan status FAIL sebagai panduan.
Jika aktivitas pemeliharaan baru-baru ini dilakukan pada klaster, status FAIL pada pemeriksaan ini menunjukkan bahwa layanan tidak stabil, yang berpotensi memengaruhi kinerja atau kemudahan servis klaster.
Mulai NCC versi 3.5.1, pemeriksaan ini berlaku untuk VM Prism Central di kluster PC skala besar.
Menjalankan Pemeriksaan NCC
Jalankan pemeriksaan ini sebagai bagian dari Pemeriksaan Kesehatan NCC yang lengkap.
nutanix@cvm$ ncc health_checks run_all
Atau Anda dapat menjalankan pemeriksaan ini satu per satu.
nutanix@cvm$ ncc health_checks system_checks cluster_services_status
Anda juga dapat menjalankan pemeriksaan dari halaman Kesehatan konsol web Prism: pilih Tindakan > Jalankan Pemeriksaan . Pilih Semua pemeriksaan dan klik Jalankan .
Pemeriksaan ini dijadwalkan dijalankan setiap 10 menit, secara default.
Pemeriksaan ini akan menghasilkan peringatan setelah 1 kegagalan.
Contoh keluaran
Untuk Status: LULUS
Menjalankan /health_checks/system_checks/cluster_services_status di semua node [ PASS ]
--------------------------------------------------- ----------------------+
+---------------+
| Negara | Hitung |
+---------------+
| Lulus | 1 |
| Jumlah | 1 |
+---------------+
Output plugin ditulis ke /home/nutanix/data/logs/ncc-output-latest.log
Untuk Status: GAGAL
Informasi terperinci untuk cluster_services_status:
Simpul xxxx:
GAGAL: Inti komponen dibuang dalam 24 jam terakhir: ['cerebro', 'curator']
Lihat KB 3378 (http://portal.nutanix.com/kb/3378) untuk detail tentang cluster_services_status atau Periksa kembali dengan: ncc health_checks system_checks cluster_services_status
Pesan keluaran
Periksa ID | 3034 |
Keterangan | Periksa apakah layanan baru saja dimulai ulang di seluruh klaster. |
Penyebab kegagalan | Peringatan ini menunjukkan bahwa satu atau lebih layanan di klaster telah dimulai ulang. |
Resolusi | Jika peringatan ini terjadi sekali atau jarang, tidak ada tindakan yang diperlukan. Jika sering terjadi, hubungi dukungan Nutanix. |
Dampak | Performa klaster mungkin menurun secara signifikan. Dalam kasus beberapa layanan dengan kondisi yang sama, klaster mungkin tidak dapat melayani permintaan I/O. |
ID Peringatan | A3034 |
Peringatan Judul Cerdas | Layanan Cluster Sering Dimulai Ulang |
Judul Peringatan | Layanan Layanan Cluster Sering Direstart |
Pesan Peringatan | Ada beberapa layanan yang dimulai ulang di semua VM Pengontrol. Kerusakan terbaru pada layanan ini terjadi pada stempel waktu masing-masing. |
Larutan
Jika pemeriksaan cluster_services_status mengembalikan status FAIL, lakukan hal berikut:
- Periksa daftar dump inti yang dihasilkan di semua VM Pengontrol.:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/core'
- Jalankan logbay dari VM Pengontrol mana pun untuk mengumpulkan file log dalam 24 jam terakhir. (Untuk informasi lebih lanjut tentang logbay , lihat Nutanix KB 6691 .)
nutanix@cvm$ logbay kumpulkan --agregat=benar --durasi=-24 jam
Ini menghasilkan file zip di direktori /home/nutanix/data/logbay/bundles/ .
Catatan: Paket log gabungan mungkin menjadi terlalu besar pada klaster yang lebih besar untuk pengumpulan log 24 jam. Dalam kasus seperti itu, gunakan logbay tanpa opsi --aggregate dan unggah bundel log dari setiap CVM ke kasus dukungan.
- Verifikasi yang berikut ini dan cari file dengan *.stack_trace.txt.gz yang harus ada di CVM yang telah menghasilkan core dumps.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/core'
- Buat kasus baru di Portal Dukungan Nutanix dan lampirkan output dari perintah di atas dan bundel logbay ke kasus dukungan.
informasi tambahan
- Nutanix KB 3378 - Dokumen asli di Portal Nutanix
- Halaman arahan Nutanix
- Paket Dukungan Lenovo ISG - ThinkAgile HX Appliance dan Lenovo Converged HX Series