HDD, SSD és HBA hibaelhárítás
HDD, SSD és HBA hibaelhárítás
HDD, SSD és HBA hibaelhárítás
Leírás
Ha egy meghajtó helyreállítható hibákat, figyelmeztetéseket vagy teljes meghibásodást tapasztal, a Stargate szolgáltatás offline állapotúként jelöli meg a lemezt. Ha a lemez egy órán belül háromszor offline állapotot észlel, akkor automatikusan eltávolítja a fürtből, és riasztást generál ( KB-4158 vagy KB-6287 ).
Ha a Prismban riasztás jön létre, a lemezt ki kell cserélni. A hibaelhárítási lépéseket nem kell végrehajtani.
MEGJEGYZÉS: Ha meghibásodott lemezt észlel egy Nutanix Clusterben az AWS rendszeren, a lemez meghibásodásának megerősítése után folytassa a megfelelő csomópont elítélésével. Az érintett csomópont elítélése egy új, azonos típusú csupasz fém példányra cseréli.
Megoldás
A lemez cseréje után az NCC állapotellenőrzést kell végrehajtani a fürt optimális állapotának biztosítása érdekében.
Ha azonban először nem jött létre riasztás, vagy további elemzésre van szükség, az alábbi lépések segítségével további hibaelhárítást végezhet.
A hibaelhárítás megkezdése előtt ellenőrizze a HBA-vezérlő típusát.
Vigyázat:
A SAS3IRCU parancs LSI 3408-as vagy magasabb szintű HBA-val szembeni használata NMI-eseményekhez vezethet, amelyek a tárhely elérhetetlenségéhez vezethetnek.
A következő parancsok használata előtt erősítse meg a HBA-vezérlőt.
A használt HBA típus meghatározásához keresse meg a vezérlő nevét a CVM /etc/nutanix/hardware_config.json fájljában.
- Példa a kimenetre SAS3008 használatakor:
Ebben az esetben a SAS3IRCU parancs a megfelelő parancs.
Jegyezze meg a "led_address": "sas3ircu:0,1:0" sort:
"node": { "storage_controllers": [ { "subsystem": "15d9:0808", "name": "LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3", "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": null, "location": { "access_plane": 1, "cell_x": 6, "width": 6, "cell_y": 2, "height": 1 }, "led_address": "sas3ircu:0,1:0" },
- Példa a kimenetre SAS3400/3800 (vagy újabb) használatakor:
Ebben az esetben a SAS3IRCU használata meggondolatlan lenne. Használja helyette a storcli parancsot. A StorCLI-vel kapcsolatos információkért tekintse meg a KB-10951- et.
Megjegyzés : "led_address": "storcli:0" sor.
"storage_controllers_v2": [ { "subsystem": "15d9:1b64", "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx", "hba_hints": { "sas_address": "0x50030480208d9939" }, "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": 1, "location": { "access_plane": 1, "height": 3, "width": 4, "cell_y": 0, "cell_x": 78 }, "led_address": "storcli:0" },
"storage_controllers_v2": [ { "subsystem": "15d9:1b64", "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx", "hba_hints": { "sas_address": "0x50030480208d9939" }, "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": 1, "location": { "access_plane": 1, "height": 3, "width": 4, "cell_y": 0, "cell_x": 78 }, "led_address": "storcli:0" },
Azonosítsa a problémás lemezeket
- Ellenőrizze a Prism Web konzolt a meghibásodott lemezre. A Diagram nézetben a hiányzó lemez piros vagy szürke színe látható.
- Ellenőrizze, hogy a Prism Web konzolon vannak-e lemezriasztások, vagy használja a következő parancsot a hibaüzeneteket generáló lemezek ellenőrzéséhez.
nutanix@cvm$ ncli alert ls
- Ellenőrizze, hogy valamelyik csomópontból hiányzik-e a csatlakoztatott lemez. A két kimenetnek numerikusan meg kell egyeznie.
- Ellenőrizze a CVM-re (vezérlő virtuális gépre) szerelt lemezeket.
nutanix@cvm$ allssh "df -h | grep -i stargate-storage | wc -l"
- Ellenőrizze a CVM-ben lévő fizikai lemezeket.
nutanix@cvm$ allssh "lsscsi | grep -v DVD-ROM | wc -l"
- Ellenőrizze, hogy a lemezek állapota mind Online , és Normál állapotú-e.
nutanix@cvm$ ncli disk ls | egrep -i -E 'Online|Status'
- Ellenőrizze a CVM-re (vezérlő virtuális gépre) szerelt lemezeket.
- Érvényesítse a fürtben lévő lemezek várható számát.
nutanix@cvm$ ncli disk ls | grep -i 'Status' | wc -l
A fenti parancs kimenete az 1c.i és 1c.ii lépések kimeneteinek összege.
Vannak esetek, amikor a szám magasabb vagy alacsonyabb lehet a vártnál. Tehát ez egy fontos mérőszám, amely összehasonlítható az 1b lépésben felsorolt lemezekkel.
- Keressen további vagy hiányzó lemezeket.
nutanix@cvm$ ncli disk ls
- Ellenőrizze, hogy az összes lemezen beépített rw (írás-olvasható), és nem ro (csak olvasható) néven van-e feltüntetve.
nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*rw' nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*ro'
Határozza meg a lemezcsomópontokkal kapcsolatos problémákat
- Árva lemez azonosítója
Ez egy olyan lemezazonosító, amelyet a rendszerek már nem használnak, de nem távolították el megfelelően. A tünetek közé tartozik, hogy az ncli disk ls kimenetében egy extra lemezazonosító látható.
Az árva lemezazonosító javítása:
nutanix@cvm$ ncli disk rm-start id= force=true
nutanix@cvm$ ncli disk rm-start id= force=true
Győződjön meg arról, hogy érvényesítette a lemez sorozatszámát, és hogy az eszköz nincs a rendszerben. Győződjön meg arról is, hogy az összes lemez feltöltődik az lsscsi , mount , df -h paranccsal, és a lemezeket a teljes lemez populációhoz számolja.
- Meghibásodott lemez és/vagy hiányzó lemez
Ellenőrizze, hogy a lemez látható-e a vezérlő számára, mivel ez az az eszköz, amelynek buszán a lemez található. A következő parancsok használhatók:
- lspci – megjeleníti a CVM által látott PCI-eszközöket.
- NVME eszköz – Nem felejtő memóriavezérlő: Intel Corporation PCIe Data Center SSD (rev 01).
- SAS3008 vezérlő - Soros csatolású SCSI vezérlő: LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3 (rev 02) - LSI.
- SAS2308 vezérlő (Dell) – Soros csatolású SCSI-vezérlő: LSI Logic / Symbios Logic SAS2308 PCI-Express Fusion-MPT SAS-2 (rev 05).
- MegaRaid LSI 3108 (Dell) – RAID buszvezérlő: LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (02. rev.).
- LSI SAS3108 (UCS) – Soros csatolású SCSI-vezérlő: LSI Logic / Symbios Logic SAS3108 PCI-Express Fusion-MPT SAS-3 (rev 02).
- lsiutil - megjeleníti a portok HBA (Host Bus Adapter) kártyáinak perspektíváját, és azt, hogy a portok UP állapotban vannak. Ha egy port nincs fent, akkor az eszköz nem válaszol, vagy rossz a port vagy a kapcsolat az eszközzel. A legvalószínűbb probléma az eszköz (lemez).
nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/lsiutil -a 12,0,0 20
- lsscsi - felsorolja a látott SCSI-busz-eszközöket, amelyek bármilyen HDD-t vagy SSD-t tartalmaznak (kivéve az NVME-t, amely nem megy át a SATA-vezérlőn).
- sas3ircu - jelenti a slot pozícióját és a lemez állapotát. Hasznos, ha hiányzik a lemez, vagy ellenőrizze, hogy a lemezek a megfelelő nyílásban vannak-e. (NE futtassa a következő parancsot Lenovo HX hardveren, mert az HBA lefagyáshoz és visszaállításhoz vezethet)
nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/sas3ircu 0 display
- storcli – Az lsiutilhoz hasonló meghajtóhibákat jelent. Jelentést ad a slot pozíciójáról és a lemez állapotáról is.
sudo ~/cluster/lib/storcli/storcli64 /call/pall show phyerrorcounters|tail -n+6 - Show phy error counts in concise output sudo ~/cluster/lib/storcli/storcli64 /call/pall show |tail -n+6 - Show detected speeds and interfaces sudo ~/cluster/lib/storcli/storcli64 /call show all - Show everything
- Ellenőrizze a CVM dmesg-jét , hogy vannak-e LSI mpt3sas üzenetek. Általában minden fizikai helyhez egy bejegyzést kell látnunk. ( Az alábbi példa azt mutatja, hogy a "0x5000c5007286a3f5" SAS-címet a rendszer ismételten ellenőrzi egy rossz/hibás lemez miatt. Figyelje meg, hogy a többi címet a rendszer egyszer észleli, és a gyanúsítottat ismételten lekérdezi. )
nutanix@cvm$ sudo dmesg | grep "detecting\: handle" [ 3.693032] mpt3sas_cm0: detecting: handle(0x0009), sas_address(0x5000c40074c6d56d), phy(0) [ 3.702423] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 3.941624] mpt3sas_cm0: detecting: handle(0x000b), sas_address(0x4431221106000000), phy(6) [ 4.191170] mpt3sas_cm0: detecting: handle(0x000c), sas_address(0x5000c500856f9e51), phy(1) [ 4.211879] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5006286a3f5), phy(2) [ 4.213080] mpt3sas_cm0: detecting: handle(0x000e), sas_address(0x5000c500856fa075), phy(3) [ 4.231194] mpt3sas_cm0: detecting: handle(0x000f), sas_address(0x5000c500856f9735), phy(4) [ 4.245974] mpt3sas_cm0: detecting: handle(0x0010), sas_address(0x5000c50084e02b31), phy(5) [ 4.942347] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 5.214032] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) [ 6.215092] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) . . [ 12.233236] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2)
- smartctl - ha a Hádész azt jelzi, hogy a smartctl egy órán belül háromszor ellenőrzi a lemezt, akkor az automatikusan meghiúsul.
nutanix@cvm$ sudo smartctl -x /dev/sdX -T permissive
- Lásd: KB-8094 a smartctl hibaelhárításához.
- Ellenőrizze az offline lemezeket az NCC check disk_online_check segítségével.
nutanix@cvm$ ncc health_checks hardware_checks disk_checks disk_online_check
- Az offline lemezek további hibaelhárításához lásd a KB 1536-ot .
- Erősítse meg, hogy az LSI Config Utility programból lemezek láthatók-e. Ez hasznos lehet a lehetséges driver vagy CVM/Hypervisor konfigurációs problémák kizárásához, amelyek megakadályozhatják bizonyos meghajtók észlelését. Az LSI Config Utility közvetlenül a HBA firmware-hez ad interfészt anélkül, hogy szoftveres operációs rendszerre támaszkodna. Ugyanazokra a dolgokra használható, mint az "lsiutil": (a) Ellenőrizze, hogy a rendszer észlel-e lemezt egy adott nyílásban, (b) ellenőrizze a lemezkapcsolat sebességét, (c) aktiváljon egy LED-jelzőt egy adott meghajtón. A G6 és G7 platformokon az LSI Config Menu alapértelmezés szerint le van tiltva, ezért használat előtt engedélyeznie kell a BIOS ban. A G8 platformokon a csatolt meghajtókat közvetlenül a BIOS menün keresztül kell megtekinteni.
- G8: A csatolt meghajtók megtekintése közvetlenül a BIOS keresztül
- Lépjen be a BIOS menübe a DEL gomb megnyomásával a "Nutanix" indítóképernyőn, miközben a csomópont indul.
- Lépjen az " Advanced " fülre, és válassza az " SCC-B8SB80-B1 (PCISlot=0x8) Configuration " lehetőséget. Így hívják a menüopciót a 3060-G8-on. Elképzelhető, hogy más modelleknél kissé eltér a neve.
- G8: A csatolt meghajtók megtekintése közvetlenül a BIOS keresztül
- lspci – megjeleníti a CVM által látott PCI-eszközöket.
- Árva lemez azonosítója
- Ha az "Eszköz tulajdonságai" opció ki van szürkítve, válassza a "Topológia frissítése" lehetőséget.
- Válassza a „Meghajtó tulajdonságai” lehetőséget a gazdagép számára látható SATA-meghajtók listájának megtekintéséhez.
- G6 és G7: Az LSI HBA OPROM engedélyezése és elérése
- Lépjen be a BIOS menübe a DEL gomb megnyomásával a "Nutanix" indítóképernyőn, miközben a csomópont indul.
- Lépjen a "Speciális" fülre, és keresse meg az "LSI HBA OPROM" lehetőséget. Állítsa ezt "Engedélyezve" értékre. Ezután nyomja meg az F4 billentyűt a BIOS menü "Mentés és kilépés" parancsához. Ennek hatására a csomópont újraindul.
- Megjegyzés: Miután megszerezte a szükséges információkat, lépjen vissza a BIOS ba, és TILTJA LE az OPROM-ot. Az F3 billentyű lenyomásával is betöltheti az optimalizált alapértelmezett beállításokat, ami visszaállítja a BIOS az eredeti gyári beállításokra, ahol az OPROM le van tiltva.
- A következő rendszerindításkor keresse meg az "Avago Technologies MPT SAS3 BIOS " című képernyőt, és nyomja meg a CRTL+C billentyűkombinációt a "SAS Configuration Utility" megnyitásához.
- A konfigurációs segédprogramban válassza ki a kívánt HBA-kártyát. A többcsomópontos modellek (2U4N, 2U2N) legfeljebb egy HBA-kártyával rendelkeznek, míg az egycsomópontos platformokon (2U1N) akár három is lehet. A több HBA-t tartalmazó rendszerekben minden HBA a meghajtók különböző részhalmazát szolgálja ki minden csomóponton.
- A következő képernyőn válassza ki a „SAS topológia”, majd a „Közvetlen csatolású eszközök” lehetőséget, hogy megtekinthesse az adott HBA-hoz társított meghajtókkal kapcsolatos információkat.
- Ha a kiválasztott HBA egyáltalán nem észlel meghajtót, a „Nincs megjeleníthető eszköz” üzenetet küld.
- Előfordulhat olyan eset, amikor a lemez DOWN állapotban van az lsiutil -ban, általában a lemezek cseréje vagy frissítése után. Ha a fenti ellenőrzések végrehajtása megtörtént, és a lemez továbbra sem látható, hasonlítsa össze a régi és az új lemezt "lemeztartó vagy tálca". Győződjön meg arról, hogy a típus megegyezik. Előfordulhatnak olyan esetek, amikor nem megfelelő lemeztípust küldenek ki, és az nem illeszkedik megfelelően a lemezrekeszbe, ezért a vezérlő nem észleli.
- Határozza meg a csomópont típusát vagy a problémás csomópontot.
Futtassa az ncli host ls parancsot, és keresse meg a megfelelő csomópontazonosítót. Az adott csomópont-hely helye, a csomópont sorozata és típusa fontos információ, amelyet ismétlődő problémák esetén dokumentálni kell. Segít a HBA-kkal, a csomópontok helyeivel és a csomóponttípusokkal kapcsolatos terepi problémák nyomon követésében is. - Határozza meg a hiba előfordulását.
- Ellenőrizze a Csillagkapu naplóját. A megfelelő időszak stargate.INFO naplója jelzi, ha a Stargate hibát észlelt egy lemezzel, és elküldte azt a Lemezkezelőnek (Hades) ellenőrzésre, vagy más hiba lépett fel a lemez elérésekor. Használja a grephez tartozó lemezazonosító számot és sorozatszámot a Csillagkapu naplójában a megfelelő csomóponton, amelyben a lemez található.
- A Hádész napló információkat tartalmaz a látott lemezekről és a lemezek állapotáról. Azt is ellenőrzi, hogy melyik lemez a metaadat vagy a kurátorlemez, és kiválaszt egyet, ha még nem létezett a rendszerben, vagy eltávolították/eltűnt a rendszerből. Ellenőrizze a Hádész naplót.
- Ellenőrizze a df -h fájlt a / home/nutanix/data/logs/sysstats/df.INFO mappában, hogy megtudja, mikor látták utoljára felcsatoltként a lemezt.
- A /home/nutanix/data/logs/sysstats/iostat.INFO oldalon ellenőrizze, hogy mikor látták utoljára az eszközt.
- Ellenőrizze a /home/log/messages fájlt az eszköz hibáiért, konkrétan az eszköznév használatával, például sda vagy sdc.
- Ellenőrizze, hogy a dmesg-ben nincsenek-e hibák a vezérlőn vagy az eszközön. Futtassa a dmesg | kevesebb a gyűrűben lévő aktuális üzenetekhez, vagy nézze meg a naplózott dmesg kimenetet a /var/log fájlban.
- Határozza meg a lemezhiba okát.
- Ellenőrizze, hogy a CVM-et mikor indították el utoljára, ha a lemez utolsó használati adatai nem voltak elérhetők. Ismét hivatkozzon a Csillagkapu és a Hádész naplókra.
- Ellenőrizze a Csillagkapu naplóját a lemezhiba idején. A Csillagkapu egy lemezt küld a Hádésznek, hogy ellenőrizze, nem válaszol-e egy adott időn belül, és időtúllépést hajt végre a lemezen. A különböző hibák és verziók eltérően ábrázolják, ezért mindig lemezazonosító és lemezsorozat alapján keressen.
- Ellenőrizze a lemezhibák számát.
Ha egy meghajtó többször meghibásodott ebben a nyílásban, és a lemezt kicserélték, az adott ponton lehetséges házproblémát jelez. - Ellenőrizze, hogy az lsiutil hibákat mutat-e.
Ha az lsiutil több sloton egyenletesen mutatja a hibákat, az rossz vezérlőt jelezhet. - Ellenőrizze az FW meghajtóval kapcsolatos ismert problémákat a lemezhibák miatt.
- Ha ez egy G8, akkor az MCU verziója 1.1A vagy magasabb, és a hátlapokat is frissítették:
Hivatkozzon erre a dokumentumra: NX-G8: Nutanix Backplane CPLD, alaplap CPLD és Multinode EC firmware kézi frissítési útmutató . - Ha ez egy G8, ellenőrizze, hogy az LSI vezérlő FW értéke 25.00.00 vagy magasabb:
Vannak olyan javítások, amelyek az SSD stabilitásához kapcsolódnak a trimm használatakor, amelyek kijavítják a PHY hibákat okozó példányokat a meghajtókon és instabilitást. Hibaelhárítási szempontból is fontos, hogy az FW 25.00.00 vagy magasabb verziójú legyen.
Megjegyzés: Eseményazonosító: 191 , a G-Sense_Error_Rate a Seagate HDD-k " smartctl " kimenetében biztonságosan figyelmen kívül hagyható, hacsak nincs teljesítményromlás. A G-Sense_Error_Rate érték csak azt jelzi, hogy a merevlemez alkalmazkodik az ütés- vagy rezgésérzékeléshez. A Seagate azt javasolja, hogy ne bízzon ezekben az értékekben, mivel ez a számláló dinamikusan módosítja a küszöbértéket futás közben.
Kapcsolódó cikkek
- Eredeti cikk a Nutanix portálon: Nutanix KB Cikk: 1113
- Nutanix nyitóoldal