Kérjük, vegye figyelembe: Ez a weboldal tartalmaz akadálymentességi rendszert. Nyomja meg az Control-F11 billentyűkombinációt, hogy a képernyőt olvasható látássérültekhez igazítsa; Nyomja meg a Control-F10 billentyűt a kisegítő lehetőségek menü megnyitásához.

HDD, SSD és HBA hibaelhárítás

HDD, SSD és HBA hibaelhárítás

HDD, SSD és HBA hibaelhárítás

Ez egy gépi fordítású cikk, az eredeti angol verzió megtekintéséhez kattintson ide.

Leírás

Ha egy meghajtó helyreállítható hibákat, figyelmeztetéseket vagy teljes meghibásodást tapasztal, a Stargate szolgáltatás offline állapotúként jelöli meg a lemezt. Ha a lemez egy órán belül háromszor offline állapotot észlel, akkor automatikusan eltávolítja a fürtből, és riasztást generál ( KB-4158 vagy KB-6287 ).

Ha a Prismban riasztás jön létre, a lemezt ki kell cserélni. A hibaelhárítási lépéseket nem kell végrehajtani.

MEGJEGYZÉS: Ha meghibásodott lemezt észlel egy Nutanix Clusterben az AWS rendszeren, a lemez meghibásodásának megerősítése után folytassa a megfelelő csomópont elítélésével. Az érintett csomópont elítélése egy új, azonos típusú csupasz fém példányra cseréli.

Megoldás

A lemez cseréje után az NCC állapotellenőrzést kell végrehajtani a fürt optimális állapotának biztosítása érdekében.
Ha azonban először nem jött létre riasztás, vagy további elemzésre van szükség, az alábbi lépések segítségével további hibaelhárítást végezhet.

A hibaelhárítás megkezdése előtt ellenőrizze a HBA-vezérlő típusát.

Vigyázat:
A SAS3IRCU parancs LSI 3408-as vagy magasabb szintű HBA-val szembeni használata NMI-eseményekhez vezethet, amelyek a tárhely elérhetetlenségéhez vezethetnek.
A következő parancsok használata előtt erősítse meg a HBA-vezérlőt.

A használt HBA típus meghatározásához keresse meg a vezérlő nevét a CVM /etc/nutanix/hardware_config.json fájljában.

  • Példa a kimenetre SAS3008 használatakor:

    Ebben az esetben a SAS3IRCU parancs a megfelelő parancs.

    Jegyezze meg a "led_address": "sas3ircu:0,1:0" sort:

     "node": { "storage_controllers": [ { "subsystem": "15d9:0808", "name": "LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3", "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": null, "location": { "access_plane": 1, "cell_x": 6, "width": 6, "cell_y": 2, "height": 1 }, "led_address": "sas3ircu:0,1:0"          },
  • Példa a kimenetre SAS3400/3800 (vagy újabb) használatakor:

    Ebben az esetben a SAS3IRCU használata meggondolatlan lenne. Használja helyette a storcli parancsot. A StorCLI-vel kapcsolatos információkért tekintse meg a KB-10951- et.

    Megjegyzés : "led_address": "storcli:0" sor.

     "storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },
    "storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },
  1. Azonosítsa a problémás lemezeket

    1. Ellenőrizze a Prism Web konzolt a meghibásodott lemezre. A Diagram nézetben a hiányzó lemez piros vagy szürke színe látható.
    2. Ellenőrizze, hogy a Prism Web konzolon vannak-e lemezriasztások, vagy használja a következő parancsot a hibaüzeneteket generáló lemezek ellenőrzéséhez.
       nutanix@cvm$ ncli alert ls
    3. Ellenőrizze, hogy valamelyik csomópontból hiányzik-e a csatlakoztatott lemez. A két kimenetnek numerikusan meg kell egyeznie.
      1. Ellenőrizze a CVM-re (vezérlő virtuális gépre) szerelt lemezeket.
         nutanix@cvm$ allssh "df -h | grep -i stargate-storage | wc -l"
      2. Ellenőrizze a CVM-ben lévő fizikai lemezeket.
         nutanix@cvm$ allssh "lsscsi | grep -v DVD-ROM | wc -l"
      3. Ellenőrizze, hogy a lemezek állapota mind Online , és Normál állapotú-e.
         nutanix@cvm$ ncli disk ls | egrep -i -E 'Online|Status'
    4. Érvényesítse a fürtben lévő lemezek várható számát.
       nutanix@cvm$ ncli disk ls | grep -i 'Status' | wc -l

      A fenti parancs kimenete az 1c.i és 1c.ii lépések kimeneteinek összege.

      Vannak esetek, amikor a szám magasabb vagy alacsonyabb lehet a vártnál. Tehát ez egy fontos mérőszám, amely összehasonlítható az 1b lépésben felsorolt lemezekkel.

    5. Keressen további vagy hiányzó lemezeket.
       nutanix@cvm$ ncli disk ls
    6. Ellenőrizze, hogy az összes lemezen beépített rw (írás-olvasható), és nem ro (csak olvasható) néven van-e feltüntetve.
       nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*rw' nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*ro'
  2. Határozza meg a lemezcsomópontokkal kapcsolatos problémákat

    1. Árva lemez azonosítója

      Ez egy olyan lemezazonosító, amelyet a rendszerek már nem használnak, de nem távolították el megfelelően. A tünetek közé tartozik, hogy az ncli disk ls kimenetében egy extra lemezazonosító látható.

      Az árva lemezazonosító javítása:

       nutanix@cvm$ ncli disk rm-start id= force=true 
            nutanix@cvm$ ncli disk rm-start id= force=true
           

      Győződjön meg arról, hogy érvényesítette a lemez sorozatszámát, és hogy az eszköz nincs a rendszerben. Győződjön meg arról is, hogy az összes lemez feltöltődik az lsscsi , mount , df -h paranccsal, és a lemezeket a teljes lemez populációhoz számolja.

    2. Meghibásodott lemez és/vagy hiányzó lemez

      Ellenőrizze, hogy a lemez látható-e a vezérlő számára, mivel ez az az eszköz, amelynek buszán a lemez található. A következő parancsok használhatók:

      1. lspci – megjeleníti a CVM által látott PCI-eszközöket.
        • NVME eszköz – Nem felejtő memóriavezérlő: Intel Corporation PCIe Data Center SSD (rev 01).
        • SAS3008 vezérlő - Soros csatolású SCSI vezérlő: LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3 (rev 02) - LSI.
        • SAS2308 vezérlő (Dell) – Soros csatolású SCSI-vezérlő: LSI Logic / Symbios Logic SAS2308 PCI-Express Fusion-MPT SAS-2 (rev 05).
        • MegaRaid LSI 3108 (Dell) – RAID buszvezérlő: LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (02. rev.).
        • LSI SAS3108 (UCS) – Soros csatolású SCSI-vezérlő: LSI Logic / Symbios Logic SAS3108 PCI-Express Fusion-MPT SAS-3 (rev 02).
      2. lsiutil - megjeleníti a portok HBA (Host Bus Adapter) kártyáinak perspektíváját, és azt, hogy a portok UP állapotban vannak. Ha egy port nincs fent, akkor az eszköz nem válaszol, vagy rossz a port vagy a kapcsolat az eszközzel. A legvalószínűbb probléma az eszköz (lemez).
         nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/lsiutil -a 12,0,0 20
      3. lsscsi - felsorolja a látott SCSI-busz-eszközöket, amelyek bármilyen HDD-t vagy SSD-t tartalmaznak (kivéve az NVME-t, amely nem megy át a SATA-vezérlőn).
      4. sas3ircu - jelenti a slot pozícióját és a lemez állapotát. Hasznos, ha hiányzik a lemez, vagy ellenőrizze, hogy a lemezek a megfelelő nyílásban vannak-e. (NE futtassa a következő parancsot Lenovo HX hardveren, mert az HBA lefagyáshoz és visszaállításhoz vezethet)
         nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/sas3ircu 0 display
      5. storcli – Az lsiutilhoz hasonló meghajtóhibákat jelent. Jelentést ad a slot pozíciójáról és a lemez állapotáról is.
         sudo ~/cluster/lib/storcli/storcli64 /call/pall show phyerrorcounters|tail -n+6 - Show phy error counts in concise output sudo ~/cluster/lib/storcli/storcli64 /call/pall show |tail -n+6 - Show detected speeds and interfaces sudo ~/cluster/lib/storcli/storcli64 /call show all - Show everything
      6. Ellenőrizze a CVM dmesg-jét , hogy vannak-e LSI mpt3sas üzenetek. Általában minden fizikai helyhez egy bejegyzést kell látnunk. ( Az alábbi példa azt mutatja, hogy a "0x5000c5007286a3f5" SAS-címet a rendszer ismételten ellenőrzi egy rossz/hibás lemez miatt. Figyelje meg, hogy a többi címet a rendszer egyszer észleli, és a gyanúsítottat ismételten lekérdezi. )
         nutanix@cvm$ sudo dmesg | grep "detecting\: handle" [ 3.693032] mpt3sas_cm0: detecting: handle(0x0009), sas_address(0x5000c40074c6d56d), phy(0) [ 3.702423] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 3.941624] mpt3sas_cm0: detecting: handle(0x000b), sas_address(0x4431221106000000), phy(6) [ 4.191170] mpt3sas_cm0: detecting: handle(0x000c), sas_address(0x5000c500856f9e51), phy(1) [ 4.211879] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5006286a3f5), phy(2) [ 4.213080] mpt3sas_cm0: detecting: handle(0x000e), sas_address(0x5000c500856fa075), phy(3) [ 4.231194] mpt3sas_cm0: detecting: handle(0x000f), sas_address(0x5000c500856f9735), phy(4) [ 4.245974] mpt3sas_cm0: detecting: handle(0x0010), sas_address(0x5000c50084e02b31), phy(5) [ 4.942347] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 5.214032] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) [ 6.215092] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) . . [ 12.233236] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2)
      7. smartctl - ha a Hádész azt jelzi, hogy a smartctl egy órán belül háromszor ellenőrzi a lemezt, akkor az automatikusan meghiúsul.
         nutanix@cvm$ sudo smartctl -x /dev/sdX -T permissive
        • Lásd: KB-8094 a smartctl hibaelhárításához.
      8. Ellenőrizze az offline lemezeket az NCC check disk_online_check segítségével.
         nutanix@cvm$ ncc health_checks hardware_checks disk_checks disk_online_check
        • Az offline lemezek további hibaelhárításához lásd a KB 1536-ot .
      9. Erősítse meg, hogy az LSI Config Utility programból lemezek láthatók-e. Ez hasznos lehet a lehetséges driver vagy CVM/Hypervisor konfigurációs problémák kizárásához, amelyek megakadályozhatják bizonyos meghajtók észlelését. Az LSI Config Utility közvetlenül a HBA firmware-hez ad interfészt anélkül, hogy szoftveres operációs rendszerre támaszkodna. Ugyanazokra a dolgokra használható, mint az "lsiutil": (a) Ellenőrizze, hogy a rendszer észlel-e lemezt egy adott nyílásban, (b) ellenőrizze a lemezkapcsolat sebességét, (c) aktiváljon egy LED-jelzőt egy adott meghajtón. A G6 és G7 platformokon az LSI Config Menu alapértelmezés szerint le van tiltva, ezért használat előtt engedélyeznie kell a BIOS ban. A G8 platformokon a csatolt meghajtókat közvetlenül a BIOS menün keresztül kell megtekinteni.
        • G8: A csatolt meghajtók megtekintése közvetlenül a BIOS keresztül
          • Lépjen be a BIOS menübe a DEL gomb megnyomásával a "Nutanix" indítóképernyőn, miközben a csomópont indul.
          • Lépjen az " Advanced " fülre, és válassza az " SCC-B8SB80-B1 (PCISlot=0x8) Configuration " lehetőséget. Így hívják a menüopciót a 3060-G8-on. Elképzelhető, hogy más modelleknél kissé eltér a neve.
            1

            2
  • Ha az "Eszköz tulajdonságai" opció ki van szürkítve, válassza a "Topológia frissítése" lehetőséget.
  • Válassza a „Meghajtó tulajdonságai” lehetőséget a gazdagép számára látható SATA-meghajtók listájának megtekintéséhez.
    3
  • G6 és G7: Az LSI HBA OPROM engedélyezése és elérése
    • Lépjen be a BIOS menübe a DEL gomb megnyomásával a "Nutanix" indítóképernyőn, miközben a csomópont indul.
    • Lépjen a "Speciális" fülre, és keresse meg az "LSI HBA OPROM" lehetőséget. Állítsa ezt "Engedélyezve" értékre. Ezután nyomja meg az F4 billentyűt a BIOS menü "Mentés és kilépés" parancsához. Ennek hatására a csomópont újraindul.
    • Megjegyzés: Miután megszerezte a szükséges információkat, lépjen vissza a BIOS ba, és TILTJA LE az OPROM-ot. Az F3 billentyű lenyomásával is betöltheti az optimalizált alapértelmezett beállításokat, ami visszaállítja a BIOS az eredeti gyári beállításokra, ahol az OPROM le van tiltva.
      4
  • A következő rendszerindításkor keresse meg az "Avago Technologies MPT SAS3 BIOS " című képernyőt, és nyomja meg a CRTL+C billentyűkombinációt a "SAS Configuration Utility" megnyitásához.
    5
  • A konfigurációs segédprogramban válassza ki a kívánt HBA-kártyát. A többcsomópontos modellek (2U4N, 2U2N) legfeljebb egy HBA-kártyával rendelkeznek, míg az egycsomópontos platformokon (2U1N) akár három is lehet. A több HBA-t tartalmazó rendszerekben minden HBA a meghajtók különböző részhalmazát szolgálja ki minden csomóponton.
    6
  • A következő képernyőn válassza ki a „SAS topológia”, majd a „Közvetlen csatolású eszközök” lehetőséget, hogy megtekinthesse az adott HBA-hoz társított meghajtókkal kapcsolatos információkat.
    7

    8

    9

    10

    11

    12
  • Ha a kiválasztott HBA egyáltalán nem észlel meghajtót, a „Nincs megjeleníthető eszköz” üzenetet küld.
    13
  1. Előfordulhat olyan eset, amikor a lemez DOWN állapotban van az lsiutil -ban, általában a lemezek cseréje vagy frissítése után. Ha a fenti ellenőrzések végrehajtása megtörtént, és a lemez továbbra sem látható, hasonlítsa össze a régi és az új lemezt "lemeztartó vagy tálca". Győződjön meg arról, hogy a típus megegyezik. Előfordulhatnak olyan esetek, amikor nem megfelelő lemeztípust küldenek ki, és az nem illeszkedik megfelelően a lemezrekeszbe, ezért a vezérlő nem észleli.
    14
  1. Határozza meg a csomópont típusát vagy a problémás csomópontot.
    Futtassa az ncli host ls parancsot, és keresse meg a megfelelő csomópontazonosítót. Az adott csomópont-hely helye, a csomópont sorozata és típusa fontos információ, amelyet ismétlődő problémák esetén dokumentálni kell. Segít a HBA-kkal, a csomópontok helyeivel és a csomóponttípusokkal kapcsolatos terepi problémák nyomon követésében is.
  2. Határozza meg a hiba előfordulását.
    1. Ellenőrizze a Csillagkapu naplóját. A megfelelő időszak stargate.INFO naplója jelzi, ha a Stargate hibát észlelt egy lemezzel, és elküldte azt a Lemezkezelőnek (Hades) ellenőrzésre, vagy más hiba lépett fel a lemez elérésekor. Használja a grephez tartozó lemezazonosító számot és sorozatszámot a Csillagkapu naplójában a megfelelő csomóponton, amelyben a lemez található.
    2. A Hádész napló információkat tartalmaz a látott lemezekről és a lemezek állapotáról. Azt is ellenőrzi, hogy melyik lemez a metaadat vagy a kurátorlemez, és kiválaszt egyet, ha még nem létezett a rendszerben, vagy eltávolították/eltűnt a rendszerből. Ellenőrizze a Hádész naplót.
    3. Ellenőrizze a df -h fájlt a / home/nutanix/data/logs/sysstats/df.INFO mappában, hogy megtudja, mikor látták utoljára felcsatoltként a lemezt.
    4. A /home/nutanix/data/logs/sysstats/iostat.INFO oldalon ellenőrizze, hogy mikor látták utoljára az eszközt.
    5. Ellenőrizze a /home/log/messages fájlt az eszköz hibáiért, konkrétan az eszköznév használatával, például sda vagy sdc.
    6. Ellenőrizze, hogy a dmesg-ben nincsenek-e hibák a vezérlőn vagy az eszközön. Futtassa a dmesg | kevesebb a gyűrűben lévő aktuális üzenetekhez, vagy nézze meg a naplózott dmesg kimenetet a /var/log fájlban.
  3. Határozza meg a lemezhiba okát.
    • Ellenőrizze, hogy a CVM-et mikor indították el utoljára, ha a lemez utolsó használati adatai nem voltak elérhetők. Ismét hivatkozzon a Csillagkapu és a Hádész naplókra.
    • Ellenőrizze a Csillagkapu naplóját a lemezhiba idején. A Csillagkapu egy lemezt küld a Hádésznek, hogy ellenőrizze, nem válaszol-e egy adott időn belül, és időtúllépést hajt végre a lemezen. A különböző hibák és verziók eltérően ábrázolják, ezért mindig lemezazonosító és lemezsorozat alapján keressen.
  4. Ellenőrizze a lemezhibák számát.
    Ha egy meghajtó többször meghibásodott ebben a nyílásban, és a lemezt kicserélték, az adott ponton lehetséges házproblémát jelez.

  5. Ellenőrizze, hogy az lsiutil hibákat mutat-e.
    Ha az lsiutil több sloton egyenletesen mutatja a hibákat, az rossz vezérlőt jelezhet.

  6. Ellenőrizze az FW meghajtóval kapcsolatos ismert problémákat a lemezhibák miatt.

  7. Ha ez egy G8, akkor az MCU verziója 1.1A vagy magasabb, és a hátlapokat is frissítették:
    Hivatkozzon erre a dokumentumra: NX-G8: Nutanix Backplane CPLD, alaplap CPLD és Multinode EC firmware kézi frissítési útmutató .

  8. Ha ez egy G8, ellenőrizze, hogy az LSI vezérlő FW értéke 25.00.00 vagy magasabb:
    Vannak olyan javítások, amelyek az SSD stabilitásához kapcsolódnak a trimm használatakor, amelyek kijavítják a PHY hibákat okozó példányokat a meghajtókon és instabilitást. Hibaelhárítási szempontból is fontos, hogy az FW 25.00.00 vagy magasabb verziójú legyen.

Megjegyzés: Eseményazonosító: 191 , a G-Sense_Error_Rate a Seagate HDD-k " smartctl " kimenetében biztonságosan figyelmen kívül hagyható, hacsak nincs teljesítményromlás. A G-Sense_Error_Rate érték csak azt jelzi, hogy a merevlemez alkalmazkodik az ütés- vagy rezgésérzékeléshez. A Seagate azt javasolja, hogy ne bízzon ezekben az értékekben, mivel ez a számláló dinamikusan módosítja a küszöbértéket futás közben.

Kapcsolódó cikkek

Dokumentum azonosítója:HT516504
Eredeti közzététel dátuma:05/16/2024
Utolsó módosítás dátuma:06/03/2024