Pemeriksaan Kesehatan NCC: cluster_services_status

Ini merupakan artikel terjemahan mesin, silakan klik disini untuk melihat versi asli Inggris.

Keterangan

Pemeriksaan kesehatan NCC cluster_services_status memverifikasi apakah layanan Controller VM (CVM) baru-baru ini dimulai ulang di seluruh cluster.

Klik di sini untuk menampilkan layanan yang diperiksa

Sebelum NCC-3.10.1

Pemeriksaan ini dijalankan setiap 4 jam dan mencari log FATAL yang dihasilkan dalam 24 jam terakhir.

Meskipun pemeriksaan NCC ini melakukan pemeriksaan pada status layanan saat ini dan kerusakan sebelumnya, pemeriksaan ini menghasilkan status FAIL hanya jika satu atau lebih layanan mengalami kerusakan beberapa kali dan menghasilkan log FATAL dalam 24 jam terakhir (5 kali pada satu Pengontrol VM atau 10 kali di cluster).

Posting ke NCC-3.10.1

Pemeriksaan ini dijalankan setiap 10 menit dan mencari log FATAL yang dihasilkan dalam 24 jam terakhir.

Pemeriksaan gagal dalam dua kasus berikut:

Layanan FATAL sebanyak 10 kali di seluruh cluster, dalam satu hari untuk cluster yang memiliki lebih dari 10 node (OR) Jumlah FATAL, dalam satu hari, lebih besar atau sama dengan jumlah node dalam cluster, untuk cluster yang memiliki hingga 10 node.
Layanan FATAL 5 kali dalam satu CVM, dalam satu hari.

Sebuah node di cluster melaporkan status FAIL dari pemeriksaan cluster_services_status atas nama semua CVM lain di cluster. Saat menyelidiki log FATAL, pastikan Anda melihat semua CVM, menggunakan daftar layanan yang terpengaruh dari pesan status FAIL sebagai panduan.

Jika aktivitas pemeliharaan baru-baru ini dilakukan pada klaster, status FAIL pada pemeriksaan ini menunjukkan bahwa layanan tidak stabil, yang berpotensi memengaruhi kinerja atau kemudahan servis klaster.

Mulai NCC versi 3.5.1, pemeriksaan ini berlaku untuk VM Prism Central di kluster PC skala besar.

Menjalankan Pemeriksaan NCC

Jalankan pemeriksaan ini sebagai bagian dari Pemeriksaan Kesehatan NCC yang lengkap.

 nutanix@cvm$ ncc health_checks run_all

Atau Anda dapat menjalankan pemeriksaan ini satu per satu.

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

Anda juga dapat menjalankan pemeriksaan dari halaman Kesehatan konsol web Prism: pilih Tindakan > Jalankan Pemeriksaan . Pilih Semua pemeriksaan dan klik Jalankan .

Pemeriksaan ini dijadwalkan dijalankan setiap 10 menit, secara default.
Pemeriksaan ini akan menghasilkan peringatan setelah 1 kegagalan.

Contoh keluaran

Untuk Status: LULUS

 Menjalankan /health_checks/system_checks/cluster_services_status di semua node [ PASS ]
--------------------------------------------------- ----------------------+
+---------------+
| Negara | Hitung |
+---------------+
| Lulus | 1 |
| Jumlah | 1 |
+---------------+
Output plugin ditulis ke /home/nutanix/data/logs/ncc-output-latest.log

Untuk Status: GAGAL

 Informasi terperinci untuk cluster_services_status:
 Simpul xxxx:
 GAGAL: Inti komponen dibuang dalam 24 jam terakhir: ['cerebro', 'curator']
 Lihat KB 3378 (http://portal.nutanix.com/kb/3378) untuk detail tentang cluster_services_status atau Periksa kembali dengan: ncc health_checks system_checks cluster_services_status

Pesan keluaran

Periksa ID	3034
Keterangan	Periksa apakah layanan baru saja dimulai ulang di seluruh klaster.
Penyebab kegagalan	Peringatan ini menunjukkan bahwa satu atau lebih layanan di klaster telah dimulai ulang.
Resolusi	Jika peringatan ini terjadi sekali atau jarang, tidak ada tindakan yang diperlukan. Jika sering terjadi, hubungi dukungan Nutanix.
Dampak	Performa klaster mungkin menurun secara signifikan. Dalam kasus beberapa layanan dengan kondisi yang sama, klaster mungkin tidak dapat melayani permintaan I/O.
ID Peringatan	A3034
Peringatan Judul Cerdas	Layanan Cluster Sering Dimulai Ulang
Judul Peringatan	Layanan Layanan Cluster Sering Direstart
Pesan Peringatan	Ada beberapa layanan yang dimulai ulang di semua VM Pengontrol. Kerusakan terbaru pada layanan ini terjadi pada stempel waktu masing-masing.

Larutan

Jika pemeriksaan cluster_services_status mengembalikan status FAIL, lakukan hal berikut:

Periksa daftar dump inti yang dihasilkan di semua VM Pengontrol.:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/core'
```

Jalankan logbay dari VM Pengontrol mana pun untuk mengumpulkan file log dalam 24 jam terakhir. (Untuk informasi lebih lanjut tentang logbay , lihat Nutanix KB 6691 .)
```
 nutanix@cvm$ logbay kumpulkan --agregat=benar --durasi=-24 jam
```
Ini menghasilkan file zip di direktori /home/nutanix/data/logbay/bundles/ .
Catatan: Paket log gabungan mungkin menjadi terlalu besar pada klaster yang lebih besar untuk pengumpulan log 24 jam. Dalam kasus seperti itu, gunakan logbay tanpa opsi --aggregate dan unggah bundel log dari setiap CVM ke kasus dukungan.

Verifikasi yang berikut ini dan cari file dengan *.stack_trace.txt.gz yang harus ada di CVM yang telah menghasilkan core dumps.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/core'
```

Buat kasus baru di Portal Dukungan Nutanix dan lampirkan output dari perintah di atas dan bundel logbay ke kasus dukungan.

informasi tambahan

Nutanix KB 3378 - Dokumen asli di Portal Nutanix
Halaman arahan Nutanix
Paket Dukungan Lenovo ISG - ThinkAgile HX Appliance dan Lenovo Converged HX Series

Dokumen ID:HT516511

Tanggal Penerbitan Asli:05/21/2024

Last Modified Date:05/30/2024