Rozwiązywanie problemów z dyskami twardymi, dyskami SSD i kartami HBA

Ten artykuł został przetłumaczony maszynowo. Aby wyświetlić oryginalną wersję anglojęzyczną, kliknij tutaj.

Opis

Gdy na dysku występują możliwe do naprawienia błędy, ostrzeżenia lub całkowita awaria, usługa Stargate oznacza dysk jako offline. Jeśli w ciągu godziny dysk zostanie wykryty 3 razy w trybie offline, zostanie automatycznie usunięty z klastra i wygenerowany zostanie alert ( KB-4158 lub KB-6287 ).

Jeśli w Prism zostanie wygenerowany alert, należy wymienić dysk. Nie ma potrzeby wykonywania czynności związanych z rozwiązywaniem problemów.

UWAGA: Jeśli w klastrach Nutanix na platformie AWS zostanie napotkany uszkodzony dysk, po potwierdzeniu, że dysk uległ awarii, należy przystąpić do potępienia odpowiedniego węzła. Potępienie węzła, którego dotyczy problem, spowoduje zastąpienie go nową instancją typu bare metal tego samego typu.

Rozwiązanie

Po wymianie dysku należy przeprowadzić kontrolę stanu NCC, aby zapewnić optymalny stan klastra.
Jeżeli jednak alert nie został wygenerowany lub wymagana jest dalsza analiza, w celu dalszego rozwiązywania problemów można wykonać poniższe kroki.

Przed rozpoczęciem rozwiązywania problemów sprawdź typ kontrolera HBA.

Ostrożność:
Użycie polecenia SAS3IRCU wobec karty HBA LSI 3408 lub nowszej może spowodować zdarzenia NMI, które mogą prowadzić do niedostępności pamięci.
Przed użyciem poniższych poleceń sprawdź kontroler HBA.

Aby określić , jakiego typu karta HBA jest używana, poszukaj nazwy kontrolera znajdującej się w pliku /etc/nutanix/hardware_config.json w CVM.

Przykład wyniku, gdy używany jest SAS3008:

W tym przypadku właściwym poleceniem jest polecenie SAS3IRCU .

Zwróć uwagę na linię „led_address”: „sas3ircu:0,1:0” :

 "node": { "storage_controllers": [ { "subsystem": "15d9:0808", "name": "LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3", "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": null, "location": { "access_plane": 1, "cell_x": 6, "width": 6, "cell_y": 2, "height": 1 }, "led_address": "sas3ircu:0,1:0"          },

Przykład wyniku, gdy używany jest SAS3400/3800 (lub nowszy):

W takim przypadku użycie SAS3IRCU byłoby niewskazane. Zamiast tego użyj polecenia storcli . Informacje na temat StorCLI można znaleźć w KB-10951 .

Uwaga „led_address”: linia „storcli:0” .

 "storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },
"storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },

Zidentyfikuj problematyczne dyski
1. Sprawdź konsolę internetową Prism pod kątem uszkodzonego dysku. W widoku diagramu brakujący dysk jest wyświetlany w kolorze czerwonym lub szarym.
2. Sprawdź konsolę internetową Prism pod kątem alertów dyskowych lub użyj poniższego polecenia, aby sprawdzić dyski generujące komunikaty o błędach.
```
 nutanix@cvm$ ncli alert ls
```
3. Sprawdź, czy w jakichś węzłach nie brakuje zamontowanych dysków. Obydwa wyniki powinny być zgodne numerycznie.
  1. Sprawdź dyski zamontowane w CVM (kontrolerowej maszynie wirtualnej).
```
 nutanix@cvm$ allssh "df -h | grep -i stargate-storage | wc -l"
```
  2. Sprawdź dyski fizyczne w CVM.
```
 nutanix@cvm$ allssh "lsscsi | grep -v DVD-ROM | wc -l"
```
  3. Sprawdź, czy wszystkie dyski mają status Online i są oznaczone jako Normalne .
```
 nutanix@cvm$ ncli disk ls | egrep -i -E 'Online|Status'
```
4. Sprawdź oczekiwaną liczbę dysków w klastrze.
```
 nutanix@cvm$ ncli disk ls | grep -i 'Status' | wc -l
```
  Dane wyjściowe powyższego polecenia powinny być sumą wyników kroków 1c.i i 1c.ii.
  Istnieją przypadki, w których liczba może być wyższa lub niższa od oczekiwanej. Jest to zatem ważny wskaźnik, który można porównać z dyskami wymienionymi w kroku 1b.
5. Poszukaj dodatkowych lub brakujących dysków.
```
 nutanix@cvm$ ncli disk ls
```
6. Sprawdź, czy wszystkie dyski są oznaczone jako zamontowane rw (odczyt i zapis), a nie ro (tylko do odczytu).
```
 nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*rw' nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*ro'
```
Zidentyfikuj problemy z węzłami dyskowymi
1. Osierocony identyfikator dysku
  Jest to identyfikator dysku, którego systemy już nie używają, ale nie został prawidłowo usunięty. Objawy obejmują wyświetlenie dodatkowego identyfikatora dysku na wyjściu polecenia ncli disc ls .
  Aby naprawić osierocony identyfikator dysku:
```
 nutanix@cvm$ ncli disk rm-start id= force=true 
      nutanix@cvm$ ncli disk rm-start id= force=true
     
```
  Upewnij się, że sprawdziłeś numer seryjny dysku i że urządzenia nie ma w systemie. Upewnij się także, że wszystkie dyski są zapełniane przy użyciu polecenia lsscsi , mount , df -h i zliczania dysków w celu zapełnienia całego dysku.
2. Uszkodzony dysk i/lub brakujący dysk
  Sprawdź, czy dysk jest widoczny dla kontrolera, ponieważ jest to urządzenie, na którego magistrali znajduje się dysk. Można użyć następujących poleceń:
  1. lspci - wyświetla urządzenia PCI widziane przez CVM.
    - Urządzenie NVME — kontroler pamięci trwałej: Intel Corporation PCIe Data Center SSD (wersja 01).
    - Kontroler SAS3008 — szeregowy kontroler SCSI: LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3 (rev 02) — LSI.
    - Kontroler SAS2308 (Dell) — kontroler SCSI podłączony szeregowo: LSI Logic / Symbios Logic SAS2308 PCI-Express Fusion-MPT SAS-2 (wersja 05).
    - MegaRaid LSI 3108 (Dell) — kontroler magistrali RAID: LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (wersja 02).
    - LSI SAS3108 (UCS) — szeregowy kontroler SCSI: LSI Logic / Symbios Logic SAS3108 PCI-Express Fusion-MPT SAS-3 (rev 02).
  2. lsiutil - wyświetla porty z perspektywy kart HBA (Host Bus Adapter) oraz to, czy porty są w stanie UP. Jeśli port nie działa, urządzenie nie odpowiedziało lub port lub połączenie z urządzeniem jest złe. Najbardziej prawdopodobnym problemem jest urządzenie (dysk).
```
 nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/lsiutil -a 12,0,0 20
```
  3. lsscsi - wyświetla listę widzianych urządzeń magistrali SCSI, w tym dowolny dysk twardy lub dysk SSD (z wyjątkiem NVME, który nie przechodzi przez kontroler SATA).
  4. sas3ircu - raportuje pozycję slotu i stan dysku. Jest to przydatne w przypadku brakujących dysków lub sprawdzania, czy dyski znajdują się we właściwym gnieździe. (NIE uruchamiaj następującego polecenia na sprzęcie Lenovo HX, ponieważ może to spowodować zawieszenie i zresetowanie karty HBA)
```
 nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/sas3ircu 0 display
```
  5. storcli — raportuje błędy napędu podobne do lsiutil. Raportuje również położenie gniazda i stan dysku.
```
 sudo ~/cluster/lib/storcli/storcli64 /call/pall show phyerrorcounters|tail -n+6 - Show phy error counts in concise output sudo ~/cluster/lib/storcli/storcli64 /call/pall show |tail -n+6 - Show detected speeds and interfaces sudo ~/cluster/lib/storcli/storcli64 /call show all - Show everything
```
  6. Sprawdź dmesg CVM pod kątem komunikatów LSI mpt3sas. Zwykle powinniśmy zobaczyć jeden wpis dla każdego fizycznego gniazda. ( Poniższy przykład pokazuje, że adres SAS „0x5000c5007286a3f5” jest wielokrotnie sprawdzany z powodu uszkodzonego/uszkodzonego dysku. Zwróć uwagę, że inne adresy są wykrywane raz, a podejrzany jest wielokrotnie odpytywany. )
```
 nutanix@cvm$ sudo dmesg | grep "detecting\: handle" [ 3.693032] mpt3sas_cm0: detecting: handle(0x0009), sas_address(0x5000c40074c6d56d), phy(0) [ 3.702423] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 3.941624] mpt3sas_cm0: detecting: handle(0x000b), sas_address(0x4431221106000000), phy(6) [ 4.191170] mpt3sas_cm0: detecting: handle(0x000c), sas_address(0x5000c500856f9e51), phy(1) [ 4.211879] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5006286a3f5), phy(2) [ 4.213080] mpt3sas_cm0: detecting: handle(0x000e), sas_address(0x5000c500856fa075), phy(3) [ 4.231194] mpt3sas_cm0: detecting: handle(0x000f), sas_address(0x5000c500856f9735), phy(4) [ 4.245974] mpt3sas_cm0: detecting: handle(0x0010), sas_address(0x5000c50084e02b31), phy(5) [ 4.942347] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 5.214032] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) [ 6.215092] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) . . [ 12.233236] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2)
```
  7. smartctl - jeśli Hades wskaże, że dysk jest sprawdzany przez smartctl 3 razy w ciągu godziny, automatycznie kończy się to niepowodzeniem.
```
 nutanix@cvm$ sudo smartctl -x /dev/sdX -T permissive
```
    - Zobacz KB-8094, aby uzyskać informacje na temat rozwiązywania problemów z smartctl .
  8. Sprawdź dyski offline za pomocą narzędzia NCC check disc_online_check .
```
 nutanix@cvm$ ncc health_checks hardware_checks disk_checks disk_online_check
```
    - Więcej informacji na temat rozwiązywania problemów z dyskami offline można znaleźć w artykule KB 1536 .
  9. Sprawdź, czy dyski są widoczne w narzędziu LSI Config Utility. Może to być przydatne do wykluczenia potencjalnych problemów z konfiguracją driver lub CVM/Hypervisora, które mogą uniemożliwić wykrycie niektórych dysków. Narzędzie LSI Config Utility umożliwia bezpośredni dostęp do oprogramowania sprzętowego karty HBA bez konieczności korzystania z oprogramowania systemowego. Można go używać do wykonywania wielu tych samych czynności, które można wykonać za pomocą polecenia „lsiutil”: (a) sprawdzenie, czy w określonym gnieździe wykryto dysk, (b) sprawdzenie szybkości łącza dysku, (c) aktywacja sygnalizatora LED na konkretnym dysku. Na platformach G6 i G7 menu konfiguracji LSI jest domyślnie wyłączone, dlatego przed użyciem należy je włączyć w BIOS . Na platformach G8 należy wyświetlić podłączone dyski bezpośrednio w menu BIOS .
    - G8: Wyświetl podłączone dyski bezpośrednio w BIOS
      - Wejdź do menu BIOS , naciskając klawisz DEL na ekranie powitalnym „Nutanix” podczas uruchamiania węzła.
      - Przejdź do zakładki „ Zaawansowane ” i wybierz „ Konfiguracja SCC-B8SB80-B1 (PCISlot=0x8) ”. Tak nazywa się opcja menu w modelu 3060-G8. W innych modelach może mieć nieco inną nazwę.

Jeśli opcja „Właściwości urządzenia” jest wyszarzona, wybierz „Odśwież topologię”.
Wybierz „Właściwości dysku”, aby wyświetlić listę dysków SATA widocznych dla hosta.

G6 i G7: Jak włączyć i uzyskać dostęp do LSI HBA OPROM
- Wejdź do menu BIOS , naciskając klawisz DEL na ekranie powitalnym „Nutanix” podczas uruchamiania węzła.
- Przejdź do zakładki „Zaawansowane” i znajdź „LSI HBA OPROM”. Ustaw to na „Włączone”. Następnie naciśnij „F4”, aby „Zapisz i wyjdź” z menu BIOS . Spowoduje to ponowne uruchomienie węzła.
- Uwaga: Po uzyskaniu potrzebnych informacji pamiętaj o powrocie do BIOS i WYŁĄCZeniu OPROMu. Możesz także nacisnąć klawisz F3, aby załadować zoptymalizowane ustawienia domyślne, co przywróci BIOS do oryginalnych ustawień fabrycznych, w których OPROM jest wyłączony.

Przy następnym uruchomieniu poszukaj ekranu zatytułowanego „Avago Technologies MPT SAS3 BIOS ” i naciśnij klawisze CRTL+C, aby wejść do „SAS Configuration Utility”.

Po wejściu do narzędzia Config Utility wybierz interesującą Cię kartę HBA. Modele wielowęzłowe (2U4N, 2U2N) będą miały maksymalnie jedną kartę HBA, podczas gdy platformy jednowęzłowe (2U1N) mogą mieć aż trzy. W systemach z wieloma kartami HBA każda karta HBA będzie obsługiwać inny podzbiór dysków w każdym węźle.

Na następnym ekranie wybierz „Topologia SAS”, a następnie „Urządzenia do bezpośredniego podłączania”, aby wyświetlić informacje o dyskach powiązanych z tą kartą HBA.

Jeśli wybrana karta HBA w ogóle nie wykryje żadnych dysków, wyświetli się komunikat „Brak urządzeń do wyświetlenia”.

Może się zdarzyć, że dysk ulegnie awarii w lsiutil , zwykle po wymianie lub modernizacji dysków. Po przeprowadzeniu wszystkich powyższych kontroli, a dysk nadal nie jest widoczny, porównaj stary i nowy dysk „caddy lub taca na dysk”. Upewnij się, że typ jest taki sam. Może się zdarzyć, że zostanie wysłany nieprawidłowy typ dysku, który nie zostanie prawidłowo osadzony we wnęce dysku, w związku z czym nie zostanie wykryty przez kontroler.

Zidentyfikuj typ węzła lub problematyczny węzeł.
Uruchom ncli host ls i znajdź pasujący identyfikator węzła. Konkretna lokalizacja gniazda węzła, numer seryjny węzła i typ węzła to ważne informacje, które należy udokumentować w przypadku powtarzających się problemów. Pomaga także śledzić problemy terenowe związane z kartami HBA, lokalizacjami węzłów i typami węzłów.
Zidentyfikuj wystąpienie awarii.
1. Sprawdź dziennik Stargate. Dziennik stargate.INFO za odpowiedni okres wskazuje, czy Stargate wykrył problem z dyskiem i wysłał go do Menedżera dysków (Hades) w celu sprawdzenia, czy też wystąpiły inne błędy podczas uzyskiwania dostępu do dysku. Użyj numeru identyfikacyjnego dysku i numeru seryjnego, aby wyszukać je w dzienniku Stargate w odpowiednim węźle, w którym znajduje się dysk.
2. Dziennik Hadesa zawiera informacje o dyskach, które widzi, oraz o stanie dysków. Sprawdza także, który dysk jest dyskiem metadanych lub dyskiem kuratora i wybiera taki, jeśli jeszcze nie istniał w systemie lub został usunięty/zniknął z systemu. Sprawdź dziennik Hadesa.
3. Sprawdź df -h w /home/nutanix/data/logs/sysstats/df.INFO , aby zobaczyć, kiedy dysk był ostatnio widziany jako zamontowany.
4. Sprawdź /home/nutanix/data/logs/sysstats/iostat.INFO , aby zobaczyć, kiedy urządzenie było ostatnio widziane.
5. Sprawdź /home/log/messages pod kątem błędów na urządzeniu, w szczególności używając nazwy urządzenia, na przykład sda lub sdc.
6. Sprawdź dmesg pod kątem błędów na kontrolerze lub urządzeniu. Uruchom dmesg | less dla bieżących wiadomości w pierścieniu lub spójrz na zarejestrowane wyjście dmesg w /var/log .
Zidentyfikuj przyczynę awarii dysku.
- Sprawdź, kiedy ostatni raz uruchomiono CVM, jeśli nie były dostępne dane dotyczące ostatniego użycia dysku. Ponownie odwołaj się do dzienników Stargate i Hades.
- Sprawdź dziennik Stargate w momencie awarii dysku. Stargate wysyła dysk do Hadesu, aby sprawdzić, czy nie odpowie w określonym czasie, i przekroczy limit czasu operacji dla tego dysku. Różne błędy i wersje przedstawiają to inaczej, więc zawsze szukaj według identyfikatora dysku i numeru seryjnego dysku.
Sprawdź liczbę awarii dysku.
Jeśli dysk w tym gnieździe uległ awarii więcej niż raz i dysk został wymieniony, oznaczałoby to potencjalny problem z obudową w tym momencie.

Sprawdź, czy lsiutil wyświetla błędy.
Jeśli lsiutil pokazuje błędy równomiernie w wielu gniazdach, może to wskazywać na zły kontroler.

Sprawdź znane problemy z oprogramowaniem sprzętowym napędu pod kątem błędów dysku.

Jeśli jest to G8, którego wersja MCU to 1.1A lub wyższa i że płyty montażowe również zostały zmodernizowane:
Odwołaj się do tego dokumentu: NX-G8: Instrukcja aktualizacji oprogramowania układowego Nutanix Backplane CPLD, Motherboard CPLD i Multinode EC .

Jeśli jest to G8, sprawdź, czy oprogramowanie sprzętowe kontrolera LSI ma wersję 25.00.00 lub wyższą:
Istnieją poprawki związane ze stabilnością dysku SSD podczas używania Trim, które korygują instancję powodującą pojawianie się błędów PHY na dyskach i niestabilność. Z punktu widzenia rozwiązywania problemów ważne jest także posiadanie wersji FW 25.00.00 lub nowszej.

Uwaga: Identyfikator zdarzenia: 191 , G-Sense_Error_Rate na wyjściu „ smarctl ” dla dysków twardych Seagate można bezpiecznie zignorować, chyba że nastąpi pogorszenie wydajności. Wartość G-Sense_Error_Rate wskazuje jedynie, że dysk twardy dostosowuje się do wykrycia wstrząsów lub wibracji. Firma Seagate zaleca, aby nie ufać tym wartościom, ponieważ licznik dynamicznie zmienia próg w czasie działania.

Powiązane artykuły

Oryginalny artykuł w portalu Nutanix: Nutanix KB Artykuł: 1113
Strona docelowa Nutanix

Identyfikatof dokumentu :HT516504

Data pierwszej publikacji:05/16/2024

Data ostatniej modyfikacji:06/03/2024