Pemecahan masalah HDD, SSD, dan HBA

Ini merupakan artikel terjemahan mesin, silakan klik disini untuk melihat versi asli Inggris.

Keterangan

Ketika drive mengalami kesalahan yang dapat dipulihkan, peringatan, atau kegagalan total, layanan Stargate menandai disk tersebut sebagai offline. Jika disk terdeteksi offline 3 kali dalam satu jam, disk akan dihapus dari cluster secara otomatis, dan peringatan dihasilkan ( KB-4158 atau KB-6287 ).

Jika peringatan muncul di Prism, disk harus diganti. Langkah pemecahan masalah tidak perlu dilakukan.

CATATAN: Jika disk gagal ditemukan di Klaster Nutanix di AWS, setelah disk dipastikan gagal, lanjutkan untuk mengutuk node terkait. Mengutuk node yang terkena dampak akan menggantinya dengan instance bare metal baru dengan tipe yang sama.

Larutan

Setelah disk diganti, pemeriksaan kesehatan NCC harus dilakukan untuk memastikan kesehatan cluster yang optimal.
Namun, jika peringatan tidak dibuat atau analisis lebih lanjut diperlukan, langkah-langkah di bawah ini dapat digunakan untuk memecahkan masalah lebih lanjut.

Sebelum Anda memulai pemecahan masalah, verifikasi jenis pengontrol HBA.

Peringatan:
Menggunakan perintah SAS3IRCU terhadap HBA LSI 3408 atau lebih tinggi dapat menyebabkan peristiwa NMI yang dapat menyebabkan tidak tersedianya penyimpanan.
Konfirmasikan pengontrol HBA sebelum menggunakan perintah berikut.

Untuk menentukan jenis HBA apa yang digunakan, carilah nama controller yang terletak di /etc/nutanix/ hardware_config.json pada CVM.

Contoh output saat SAS3008 digunakan:

Dalam hal ini, perintah SAS3IRCU adalah perintah yang tepat untuk digunakan.

Perhatikan baris "led_address": "sas3ircu:0,1:0" :

 "node": { "storage_controllers": [ { "subsystem": "15d9:0808", "name": "LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3", "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": null, "location": { "access_plane": 1, "cell_x": 6, "width": 6, "cell_y": 2, "height": 1 }, "led_address": "sas3ircu:0,1:0"          },

Contoh output ketika SAS3400/3800 (atau lebih baru) digunakan:

Dalam hal ini, menggunakan SAS3IRCU adalah tindakan yang keliru. Gunakan perintah storcli sebagai gantinya. Untuk informasi tentang StorCLI, lihat KB-10951 .

Perhatikan baris "led_address": "storcli:0" .

 "storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },
"storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },

Identifikasi disk yang bermasalah
1. Periksa konsol Web Prism untuk disk yang gagal. Dalam tampilan Diagram, Anda dapat melihat warna merah atau abu-abu untuk disk yang hilang.
2. Periksa konsol Web Prism untuk pemberitahuan disk, atau gunakan perintah berikut untuk memeriksa disk yang menghasilkan pesan kegagalan.
```
 nutanix@cvm$ ncli alert ls
```
3. Periksa apakah ada node yang kehilangan disk terpasang. Kedua keluaran harus cocok secara numerik.
  1. Periksa disk yang dipasang pada CVM (Controller VM).
```
 nutanix@cvm$ allssh "df -h | grep -i stargate-storage | wc -l"
```
  2. Periksa disk yang bersifat fisik di CVM.
```
 nutanix@cvm$ allssh "lsscsi | grep -v DVD-ROM | wc -l"
```
  3. Periksa apakah status disk semuanya Online dan terindikasi Normal .
```
 nutanix@cvm$ ncli disk ls | egrep -i -E 'Online|Status'
```
4. Validasi jumlah disk yang diharapkan dalam klaster.
```
 nutanix@cvm$ ncli disk ls | grep -i 'Status' | wc -l
```
  Output dari perintah di atas harus merupakan jumlah dari output langkah 1c.i dan 1c.ii.
  Ada kalanya angkanya bisa lebih tinggi atau lebih rendah dari yang diharapkan. Jadi, ini adalah metrik penting yang dapat dibandingkan dengan disk yang tercantum pada langkah 1b.
5. Cari disk tambahan atau hilang.
```
 nutanix@cvm$ ncli disk ls
```
6. Periksa apakah semua disk terindikasi sebagai mount rw (baca-tulis) dan bukan ro (read-only).
```
 nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*rw' nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*ro'
```
Identifikasi masalah dengan node disk
1. ID disk yatim piatu
  Ini adalah ID disk yang tidak lagi digunakan oleh sistem tetapi tidak dihapus dengan benar. Gejalanya termasuk melihat ID disk tambahan tercantum dalam keluaran ncli disk ls .
  Untuk memperbaiki ID disk yatim piatu:
```
 nutanix@cvm$ ncli disk rm-start id= force=true 
      nutanix@cvm$ ncli disk rm-start id= force=true
     
```
  Pastikan Anda memvalidasi nomor seri disk dan perangkat tidak ada dalam sistem. Selain itu, pastikan semua disk terisi menggunakan lsscsi , mount , df -h , dan menghitung disk untuk populasi disk penuh.
2. Disk gagal dan/atau disk hilang
  Periksa apakah disk terlihat oleh pengontrol karena ini adalah perangkat tempat disk berada. Perintah berikut dapat digunakan:
  1. lspci - menampilkan perangkat PCI yang dilihat oleh CVM.
    - Perangkat NVME - Pengontrol memori non-Volatile: Intel Corporation PCIe Data Center SSD (rev 01).
    - Pengontrol SAS3008 - Pengontrol SCSI Terlampir Serial: Logika LSI / Logika Symbios SAS3008 PCI-Express Fusion-MPT SAS-3 (rev 02) - LSI.
    - Pengontrol SAS2308 (Dell) - Pengontrol SCSI Terlampir Serial: Logika LSI / Logika Symbios SAS2308 PCI-Express Fusion-MPT SAS-2 (rev 05).
    - MegaRaid LSI 3108 (Dell) - Pengontrol bus RAID: Logika LSI / Logika Symbios MegaRAID SAS-3 3108 [Invader] (rev 02).
    - LSI SAS3108 (UCS) - Pengontrol SCSI Terlampir Serial: LSI Logic / Symbios Logic SAS3108 PCI-Express Fusion-MPT SAS-3 (rev 02).
  2. lsiutil - menampilkan perspektif kartu HBA (Host Bus Adapter) dari port dan apakah port berada dalam status UP. Jika port tidak aktif, berarti perangkat tidak merespons, atau port atau sambungan ke perangkat buruk. Masalah yang paling mungkin terjadi adalah perangkat (disk).
```
 nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/lsiutil -a 12,0,0 20
```
  3. lsscsi - mencantumkan perangkat bus SCSI yang terlihat menyertakan HDD atau SSD apa pun (kecuali NVME, yang tidak melewati pengontrol SATA).
  4. sas3ircu - melaporkan posisi slot dan status disk. Hal ini berguna untuk kehilangan disk atau memverifikasi bahwa disk berada di slot yang benar. (JANGAN jalankan perintah berikut pada perangkat keras Lenovo HX karena dapat menyebabkan penguncian dan pengaturan ulang HBA)
```
 nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/sas3ircu 0 display
```
  5. storcli - Melaporkan kesalahan drive yang mirip dengan lsiutil. Juga melaporkan posisi slot dan status disk.
```
 sudo ~/cluster/lib/storcli/storcli64 /call/pall show phyerrorcounters|tail -n+6 - Show phy error counts in concise output sudo ~/cluster/lib/storcli/storcli64 /call/pall show |tail -n+6 - Show detected speeds and interfaces sudo ~/cluster/lib/storcli/storcli64 /call show all - Show everything
```
  6. Periksa dmesg CVM untuk pesan LSI mpt3sas. Biasanya kita akan melihat satu entri untuk setiap slot fisik. ( Contoh di bawah menunjukkan alamat SAS "0x5000c5007286a3f5" berulang kali diperiksa karena disk rusak/gagal. Perhatikan bagaimana alamat lain terdeteksi satu kali, dan tersangka berulang kali disurvei. )
```
 nutanix@cvm$ sudo dmesg | grep "detecting\: handle" [ 3.693032] mpt3sas_cm0: detecting: handle(0x0009), sas_address(0x5000c40074c6d56d), phy(0) [ 3.702423] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 3.941624] mpt3sas_cm0: detecting: handle(0x000b), sas_address(0x4431221106000000), phy(6) [ 4.191170] mpt3sas_cm0: detecting: handle(0x000c), sas_address(0x5000c500856f9e51), phy(1) [ 4.211879] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5006286a3f5), phy(2) [ 4.213080] mpt3sas_cm0: detecting: handle(0x000e), sas_address(0x5000c500856fa075), phy(3) [ 4.231194] mpt3sas_cm0: detecting: handle(0x000f), sas_address(0x5000c500856f9735), phy(4) [ 4.245974] mpt3sas_cm0: detecting: handle(0x0010), sas_address(0x5000c50084e02b31), phy(5) [ 4.942347] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 5.214032] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) [ 6.215092] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) . . [ 12.233236] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2)
```
  7. smartctl - jika Hades menunjukkan bahwa disk diperiksa oleh smartctl 3 kali dalam satu jam, maka secara otomatis gagal.
```
 nutanix@cvm$ sudo smartctl -x /dev/sdX -T permissive
```
    - Lihat KB-8094 untuk pemecahan masalah dengan smartctl .
  8. Periksa disk offline menggunakan NCC check disk_online_check .
```
 nutanix@cvm$ ncc health_checks hardware_checks disk_checks disk_online_check
```
    - Lihat KB 1536 untuk pemecahan masalah lebih lanjut pada disk offline.
  9. Konfirmasikan apakah disk terlihat dari LSI Config Utility. Hal ini berguna untuk mengesampingkan potensi masalah konfigurasi driver atau CVM/Hypervisor yang dapat menghalangi Anda mendeteksi drive tertentu. LSI Config Utility memberi Anda antarmuka langsung ke firmware HBA tanpa bergantung pada sistem operasi perangkat lunak. Ini dapat digunakan untuk melakukan banyak hal yang sama yang dapat Anda lakukan dengan "lsiutil": (a) Periksa apakah disk terdeteksi di slot tertentu, (b) Periksa kecepatan tautan disk, (c) Aktifkan suar LED pada drive tertentu. Pada platform G6 & G7, Menu Konfigurasi LSI dinonaktifkan secara default sehingga Anda harus mengaktifkannya di BIOS sebelum dapat menggunakannya. Pada platform G8 Anda harus melihat drive yang terpasang langsung melalui menu BIOS .
    - G8: Lihat drive yang terpasang langsung melalui BIOS
      - Masuk ke Menu BIOS dengan menekan tombol DEL di layar splash "Nutanix" saat node sedang boot-up.
      - Buka Tab " Tingkat Lanjut " dan pilih " Konfigurasi SCC-B8SB80-B1 (PCISlot=0x8) ". Inilah yang disebut opsi menu pada 3060-G8. Namanya mungkin sedikit berbeda pada model lain.

Jika opsi "Properti Perangkat" berwarna abu-abu, pilih "Segarkan Topologi".
Pilih "Drive Properties" untuk melihat daftar drive SATA yang terlihat oleh host.

G6 & G7: Cara mengaktifkan dan mengakses LSI HBA OPROM
- Masuk ke Menu BIOS dengan menekan tombol DEL di layar splash "Nutanix" saat node sedang boot-up.
- Buka tab "Lanjutan" dan temukan "LSI HBA OPROM". Setel ini ke "Diaktifkan". Lalu tekan "F4" untuk "Simpan & Keluar" dari menu BIOS . Ini akan menyebabkan node melakukan boot ulang.
- Catatan: Setelah Anda mendapatkan informasi yang Anda perlukan, pastikan untuk masuk kembali ke BIOS dan NONAKTIFKAN OPROM. Anda juga dapat menekan F3 untuk Memuat Default yang Dioptimalkan, yang akan mengembalikan BIOS ke pengaturan awal pabrik di mana OPROM dinonaktifkan.

Pada boot-up berikutnya, cari layar berjudul "Avago Technologies MPT SAS3 BIOS " dan tekan CRTL+C untuk masuk ke "SAS Configuration Utility".

Setelah berada di dalam Config Utility, pilih kartu HBA yang Anda minati. Model multi-node (2U4N, 2U2N) hanya akan memiliki maksimal satu kartu HBA, sedangkan platform node tunggal (2U1N) dapat memiliki sebanyak tiga kartu. Dalam sistem multi-HBA, setiap HBA akan melayani subset drive yang berbeda di setiap node.

Di layar berikutnya, pilih "SAS Topology" dan kemudian "Direct Attach Devices" untuk melihat informasi tentang drive yang terkait dengan HBA tersebut.

Jika HBA yang Anda pilih tidak mendeteksi drive apa pun, HBA akan melaporkan "Tidak ada perangkat untuk ditampilkan".

Mungkin ada kasus ketika disk TURUN di lsiutil , biasanya setelah penggantian atau peningkatan disk. Ketika semua pemeriksaan di atas telah dilakukan, dan disk masih tidak terlihat, bandingkan "disk caddy atau tray" disk lama dan baru. Pastikan tipenya sama. Mungkin ada kasus di mana jenis disk yang salah dikirim, dan disk tersebut tidak terpasang dengan benar di tempat disk sehingga tidak terdeteksi oleh pengontrol.

Identifikasi jenis node atau node yang bermasalah.
Jalankan ncli host ls dan temukan ID node yang cocok. Lokasi slot node tertentu, serial node, dan jenis node merupakan informasi penting untuk didokumentasikan jika terjadi masalah berulang. Ini juga membantu melacak masalah lapangan dengan HBA, lokasi node, dan tipe node.
Identifikasi terjadinya kegagalan.
1. Periksa log Stargate. Log stargate.INFO untuk periode yang sesuai menunjukkan apakah Stargate melihat masalah dengan disk dan mengirimkannya ke Manajer Disk (Hades) untuk diperiksa atau ada kesalahan lain saat mengakses disk. Gunakan nomor ID disk dan nomor seri untuk diambil di log Stargate pada node terkait tempat disk berada.
2. Log Hades berisi informasi tentang disk yang dilihatnya dan kesehatan disk. Ia juga memeriksa disk mana yang merupakan metadata atau disk Kurator dan memilih salah satu jika disk tersebut belum ada di sistem atau telah dihapus/hilang dari sistem. Periksa log Hades.
3. Periksa df -h di / home/nutanix/data/logs/sysstats/df.INFO untuk melihat kapan disk terakhir terlihat terpasang.
4. Periksa /home/nutanix/data/logs/sysstats/iostat.INFO untuk melihat kapan perangkat terakhir terlihat.
5. Periksa /home/log/messages apakah ada kesalahan pada perangkat, khususnya menggunakan nama perangkat, misalnya sda atau sdc.
6. Periksa dmesg untuk kesalahan pada pengontrol atau perangkat. Jalankan dmesg | less untuk pesan-pesan saat ini di dalam ring, atau lihat keluaran dmesg yang dicatat di /var/log .
Identifikasi penyebab kegagalan disk.
- Periksa kapan CVM terakhir dimulai jika data penggunaan terakhir disk tidak tersedia. Sekali lagi, referensikan log Stargate dan Hades.
- Periksa log Stargate sekitar waktu kegagalan disk. Stargate mengirimkan disk ke Hades untuk memeriksa apakah disk tersebut tidak merespons dalam waktu tertentu dan batas waktu operasi terhadap disk tersebut. Kesalahan dan versi yang berbeda menunjukkannya secara berbeda, jadi selalu cari berdasarkan ID disk dan serial disk.
Periksa jumlah kegagalan disk.
Jika drive gagal lebih dari sekali pada slot ini dan disk diganti, hal ini menunjukkan potensi masalah sasis pada saat itu.

Periksa apakah lsiutil menunjukkan kesalahan.
Jika lsiutil menunjukkan kesalahan secara merata pada beberapa slot, ini dapat mengindikasikan pengontrol yang buruk.

Periksa masalah umum pada drive FW untuk mengetahui kesalahan disk.

Jika ini adalah G8 dengan versi MCU 1.1A atau lebih tinggi dan Backplanesnya juga ditingkatkan:
Referensi dokumen ini: NX-G8: Nutanix Backplane CPLD, Motherboard CPLD, dan panduan peningkatan manual firmware Multinode EC .

Jika ini adalah G8, periksa apakah FW pengontrol LSI adalah 25.00.00 atau lebih tinggi:
Ada perbaikan terkait stabilitas SSD saat trim digunakan yang memperbaiki kejadian yang menyebabkan kesalahan PHY terlihat pada drive dan ketidakstabilan. Penting juga dari sudut pandang pemecahan masalah untuk berada pada FW 25.00.00 atau lebih tinggi.

Catatan: ID Peristiwa: 191 , G-Sense_Error_Rate dalam keluaran " smartctl " untuk Seagate HDD dapat diabaikan dengan aman kecuali terjadi penurunan kinerja. Nilai G-Sense_Error_Rate hanya menunjukkan HDD beradaptasi dengan deteksi guncangan atau getaran. Seagate menyarankan untuk tidak memercayai nilai-nilai ini karena penghitung ini secara dinamis mengubah ambang batas selama waktu proses.