Probleemoplossing voor HDD, SSD en HBA

Dit artikel is een machinevertaling. Klik hier om de originele Engelse versie te bekijken.

Beschrijving

Wanneer een schijf herstelbare fouten, waarschuwingen of een volledige storing ervaart, markeert de Stargate-service de schijf als offline. Als binnen een uur drie keer wordt gedetecteerd dat de schijf offline is, wordt deze automatisch uit het cluster verwijderd en wordt er een waarschuwing gegenereerd ( KB-4158 of KB-6287 ).

Als er een waarschuwing wordt gegenereerd in Prism, moet de schijf worden vervangen. Er hoeven geen stappen voor probleemoplossing te worden uitgevoerd.

OPMERKING: Als er een defecte schijf wordt aangetroffen in een Nutanix Clusters op AWS, ga dan, nadat is bevestigd dat de schijf defect is, verder met het veroordelen van het betreffende knooppunt. Als u het getroffen knooppunt veroordeelt, wordt het vervangen door een nieuwe bare metal-instantie van hetzelfde type.

Oplossing

Zodra de schijf is vervangen, moet een NCC-statuscontrole worden uitgevoerd om een optimale clustergezondheid te garanderen.
Als er echter helemaal geen waarschuwing is gegenereerd of als verdere analyse vereist is, kunnen de onderstaande stappen worden gebruikt om het probleem verder op te lossen.

Voordat u begint met het oplossen van problemen, controleert u het type HBA-controller.

Voorzichtigheid:
Het gebruik van de opdracht SAS3IRCU tegen een LSI 3408 of hoger HBA kan NMI-gebeurtenissen veroorzaken die kunnen leiden tot onbeschikbaarheid van de opslag.
Bevestig de HBA-controller voordat u de volgende opdrachten gebruikt.

Om te bepalen welk type HBA wordt gebruikt, zoekt u naar de controllernaam in /etc/nutanix/hardware_config.json op de CVM .

Voorbeeld van de uitvoer wanneer SAS3008 wordt gebruikt:

In dit geval is de opdracht SAS3IRCU de juiste opdracht om te gebruiken.

Let op de regel "led_address": "sas3ircu:0,1:0" :

 "node": { "storage_controllers": [ { "subsystem": "15d9:0808", "name": "LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3", "mapping": [ { "slot_designation": "1", "hba_address": "0", "slot_id": null, "location": { "access_plane": 1, "cell_x": 6, "width": 6, "cell_y": 2, "height": 1 }, "led_address": "sas3ircu:0,1:0"          },

Voorbeeld van de uitvoer wanneer SAS3400/3800 (of nieuwer) wordt gebruikt:

In dit geval zou het gebruik van SAS3IRCU onverstandig zijn. Gebruik in plaats daarvan de opdracht storcli . Raadpleeg KB-10951 voor informatie over StorCLI.

Let op de regel "led_address": "storcli:0" .

 "storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },
"storage_controllers_v2": [      {        "subsystem": "15d9:1b64",        "name": "Broadcom / LSI Fusion-MPT 12GSAS/PCIe Secure SAS38xx",        "hba_hints": {          "sas_address": "0x50030480208d9939"        },        "mapping": [          {            "slot_designation": "1",            "hba_address": "0",            "slot_id": 1,            "location": {              "access_plane": 1,              "height": 3,              "width": 4,              "cell_y": 0,              "cell_x": 78            }, "led_address": "storcli:0"          },

Identificeer de problematische schijven
1. Controleer de Prism Web-console op de defecte schijf. In de diagramweergave ziet u rood of grijs voor de ontbrekende schijf.
2. Controleer de Prism Web-console op schijfwaarschuwingen of gebruik de volgende opdracht om te controleren op schijven die de foutberichten genereren.
```
 nutanix@cvm$ ncli alert ls
```
3. Controleer of er bij knooppunten gekoppelde schijven ontbreken. De twee uitgangen moeten numeriek overeenkomen.
  1. Controleer de schijven die op de CVM (Controller VM) zijn gemonteerd.
```
 nutanix@cvm$ allssh "df -h | grep -i stargate-storage | wc -l"
```
  2. Controleer de fysieke schijven in de CVM.
```
 nutanix@cvm$ allssh "lsscsi | grep -v DVD-ROM | wc -l"
```
  3. Controleer of de status van de schijven allemaal Online is en wordt aangegeven als Normaal .
```
 nutanix@cvm$ ncli disk ls | egrep -i -E 'Online|Status'
```
4. Valideer het verwachte aantal schijven in het cluster.
```
 nutanix@cvm$ ncli disk ls | grep -i 'Status' | wc -l
```
  De uitvoer van het bovenstaande commando moet de som zijn van de uitvoer van stappen 1c.i en 1c.ii.
  Er zijn gevallen waarin het aantal hoger of lager kan zijn dan verwacht. Het is dus een belangrijke statistiek die kan worden vergeleken met de schijven die in stap 1b worden vermeld.
5. Zoek naar extra of ontbrekende schijven.
```
 nutanix@cvm$ ncli disk ls
```
6. Controleer of alle schijven zijn aangegeven als aangekoppeld rw (lezen-schrijven) en niet ro (alleen-lezen).
```
 nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*rw' nutanix@cvm$ sudo mount | grep -E 'stargate-storage.*ro'
```
Identificeer de problemen met de schijfknooppunten
1. Verweesde schijf-ID
  Dit is een schijf-ID die de systemen niet meer gebruiken, maar die niet correct zijn verwijderd. Symptomen zijn onder meer het zien van een extra schijf-ID in de uitvoer van ncli disk ls .
  Om de verweesde schijf-ID te herstellen:
```
 nutanix@cvm$ ncli disk rm-start id= force=true 
      nutanix@cvm$ ncli disk rm-start id= force=true
     
```
  Zorg ervoor dat u het serienummer van de schijf valideert en dat het apparaat zich niet in het systeem bevindt. Zorg er ook voor dat alle schijven worden gevuld met behulp van lsscsi , mount , df -h en tel de schijven voor de volledige schijfpopulatie.
2. Defecte schijf en/of ontbrekende schijf
  Controleer of de schijf zichtbaar is voor de controller, aangezien dit het apparaat is op de bus waarop de schijf zich bevindt. De volgende commando's kunnen worden gebruikt:
  1. lspci - geeft de PCI-apparaten weer die door de CVM worden gezien.
    - NVME-apparaat - Niet-vluchtige geheugencontroller: Intel Corporation PCIe Data Center SSD (rev 01).
    - SAS3008-controller - Serieel aangesloten SCSI-controller: LSI Logic / Symbios Logic SAS3008 PCI-Express Fusion-MPT SAS-3 (rev 02) - LSI.
    - SAS2308-controller (Dell) - Serieel aangesloten SCSI-controller: LSI Logic / Symbios Logic SAS2308 PCI-Express Fusion-MPT SAS-2 (rev 05).
    - MegaRaid LSI 3108 (Dell) - RAID-buscontroller: LSI Logic / Symbios Logic MegaRAID SAS-3 3108 [Invader] (rev 02).
    - LSI SAS3108 (UCS) - Serieel aangesloten SCSI-controller: LSI Logic / Symbios Logic SAS3108 PCI-Express Fusion-MPT SAS-3 (rev 02).
  2. lsiutil - geeft het perspectief van de HBA-kaarten (Host Bus Adapter) weer van de poorten en of de poorten zich in een UP-status bevinden. Als een poort niet actief is, heeft het apparaat niet gereageerd of is de poort of verbinding met het apparaat slecht. Het meest waarschijnlijke probleem is het apparaat (schijf).
```
 nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/lsiutil -a 12,0,0 20
```
  3. lsscsi - geeft een overzicht van de geziene SCSI-busapparaten die een HDD of SSD bevatten (behalve NVME, die niet door de SATA-controller gaat).
  4. sas3ircu - rapporteert slotpositie en schijfstatus. Dit is handig voor ontbrekende schijven of om te controleren of schijven in de juiste sleuf zitten. (Voer de volgende opdracht NIET uit op Lenovo HX-hardware, omdat dit kan leiden tot HBA-vastlopen en resets)
```
 nutanix@cvm$ sudo /home/nutanix/cluster/lib/lsi-sas/sas3ircu 0 display
```
  5. storcli - Rapporteert schijffouten vergelijkbaar met lsiutil. Rapporteert ook slotpositie en schijfstatus.
```
 sudo ~/cluster/lib/storcli/storcli64 /call/pall show phyerrorcounters|tail -n+6 - Show phy error counts in concise output sudo ~/cluster/lib/storcli/storcli64 /call/pall show |tail -n+6 - Show detected speeds and interfaces sudo ~/cluster/lib/storcli/storcli64 /call show all - Show everything
```
  6. Controleer de dmesg van de CVM op LSI mpt3sas-berichten. Normaal gesproken zien we één vermelding voor elk fysiek slot. ( Het onderstaande voorbeeld laat zien dat het SAS-adres "0x5000c5007286a3f5" herhaaldelijk wordt gecontroleerd vanwege een slechte/defecte schijf. Merk op hoe de andere adressen één keer worden gedetecteerd en de verdachte herhaaldelijk wordt ondervraagd. )
```
 nutanix@cvm$ sudo dmesg | grep "detecting\: handle" [ 3.693032] mpt3sas_cm0: detecting: handle(0x0009), sas_address(0x5000c40074c6d56d), phy(0) [ 3.702423] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 3.941624] mpt3sas_cm0: detecting: handle(0x000b), sas_address(0x4431221106000000), phy(6) [ 4.191170] mpt3sas_cm0: detecting: handle(0x000c), sas_address(0x5000c500856f9e51), phy(1) [ 4.211879] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5006286a3f5), phy(2) [ 4.213080] mpt3sas_cm0: detecting: handle(0x000e), sas_address(0x5000c500856fa075), phy(3) [ 4.231194] mpt3sas_cm0: detecting: handle(0x000f), sas_address(0x5000c500856f9735), phy(4) [ 4.245974] mpt3sas_cm0: detecting: handle(0x0010), sas_address(0x5000c50084e02b31), phy(5) [ 4.942347] mpt3sas_cm0: detecting: handle(0x000a), sas_address(0x4431221107000000), phy(7) [ 5.214032] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) [ 6.215092] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2) . . [ 12.233236] mpt3sas_cm0: detecting: handle(0x000d), sas_address(0x5000c5007286a3f5), phy(2)
```
  7. smartctl - als Hades aangeeft dat een schijf 3 keer per uur door smartctl wordt gecontroleerd, mislukt deze automatisch.
```
 nutanix@cvm$ sudo smartctl -x /dev/sdX -T permissive
```
    - Zie KB-8094 voor probleemoplossing met smartctl .
  8. Controleer op offline schijven met behulp van NCC check disk_online_check .
```
 nutanix@cvm$ ncc health_checks hardware_checks disk_checks disk_online_check
```
    - Zie KB 1536 voor verdere probleemoplossing bij offline schijven.
  9. Controleer of er schijven worden gezien vanuit het LSI Config Utility. Dit kan handig zijn voor het uitsluiten van mogelijke configuratieproblemen driver of CVM/Hypervisor, waardoor u bepaalde schijven niet kunt detecteren. De LSI Config Utility biedt u een directe interface met de HBA-firmware zonder afhankelijk te zijn van een softwarebesturingssysteem. Het kan worden gebruikt om veel van dezelfde dingen te doen die u kunt doen met "lsiutil": (a) Controleer of een schijf in een bepaald slot wordt gedetecteerd, (b) Controleer de snelheid van de schijfverbinding, (c) Activeer een LED-baken op een bepaalde schijf. Op G6- en G7-platforms is het LSI-configuratiemenu standaard uitgeschakeld, dus u moet het in het BIOS inschakelen voordat u het kunt gebruiken. Op G8-platforms moet u de aangesloten schijven rechtstreeks via het BIOS menu bekijken.
    - G8: Bekijk aangesloten schijven rechtstreeks via het BIOS
      - Open het BIOS menu door op de DEL-toets te drukken in het "Nutanix"-opstartscherm terwijl het knooppunt aan het opstarten is.
      - Ga naar het tabblad " Geavanceerd " en selecteer " SCC-B8SB80-B1 (PCISlot=0x8) Configuratie ". Zo wordt de menuoptie genoemd op de 3060-G8. Op andere modellen kan de naam iets anders zijn.

Als de optie "Apparaateigenschappen" grijs is, selecteert u "Topologie vernieuwen".
Selecteer "Drive-eigenschappen" om een lijst te zien van de SATA-schijven die zichtbaar zijn voor de host.

G6 & G7: LSI HBA OPROM inschakelen en openen
- Open het BIOS menu door op de DEL-toets te drukken in het "Nutanix"-opstartscherm terwijl het knooppunt aan het opstarten is.
- Ga naar het tabblad "Geavanceerd" en zoek "LSI HBA OPROM". Stel dit in op "Ingeschakeld". Druk vervolgens op "F4" om het BIOS menu op te slaan en af te sluiten. Hierdoor wordt het knooppunt opnieuw opgestart.
- Opmerking: Nadat u de benodigde informatie heeft verkregen, moet u teruggaan naar het BIOS en de OPROM UITSCHAKELEN. U kunt ook op F3 drukken om geoptimaliseerde standaardwaarden te laden, waardoor het BIOS terugkeert naar de oorspronkelijke fabrieksinstellingen waarin de OPROM is uitgeschakeld.

Zoek bij de volgende keer opstarten naar het scherm met de titel "Avago Technologies MPT SAS3 BIOS " en druk op CRTL+C om het "SAS Configuration Utility" te openen.

Eenmaal in de Config Utility selecteert u de HBA-kaart waarin u geïnteresseerd bent. Modellen met meerdere knooppunten (2U4N, 2U2N) hebben maximaal één HBA-kaart, terwijl platforms met één knooppunt (2U1N) er maar liefst drie kunnen hebben. In multi-HBA-systemen bedient elke HBA een andere subset schijven op elk knooppunt.

Selecteer op het volgende scherm "SAS Topology" en vervolgens "Direct Attach Devices" om informatie te bekijken over de schijven die aan die HBA zijn gekoppeld.

Als de door u geselecteerde HBA helemaal geen schijven detecteert, wordt er 'Geen apparaten om weer te geven' gerapporteerd.

Het kan voorkomen dat de schijf DOWN is in lsiutil , meestal na vervanging of upgrade van de schijven. Wanneer alle bovenstaande controles zijn uitgevoerd en de schijf nog steeds niet zichtbaar is, vergelijk dan de oude en nieuwe schijf "schijfcaddy of lade". Zorg ervoor dat het type hetzelfde is. Er kunnen zich gevallen voordoen waarin een onjuist schijftype wordt verzonden en deze niet goed in de schijfsleuf past en dus niet door de controller wordt gedetecteerd.

Identificeer het knooppunttype of het problematische knooppunt.
Voer ncli host ls uit en zoek de overeenkomende knooppunt-ID. De specifieke knooppuntlocatie, het serienummer en het knooppunttype zijn belangrijke informatie om te documenteren in geval van terugkerende problemen. Het helpt ook om de veldproblemen met de HBA's, knooppuntlocaties en knooppunttypen op te sporen.
Identificeer het optreden van de fout.
1. Controleer het Stargate-logboek. Het stargate.INFO- logboek voor de overeenkomstige periode geeft aan of Stargate een probleem met een schijf heeft gezien en dit naar Schijfbeheer (Hades) heeft gestuurd om te worden gecontroleerd of dat er andere fouten zijn opgetreden bij de toegang tot de schijf. Gebruik het schijf-ID-nummer en het serienummer om te zoeken in het Stargate-logboek op het corresponderende knooppunt waarin de schijf zich bevindt.
2. Het Hades-logboek bevat informatie over de schijven die het ziet en de status van de schijven. Het controleert ook welke schijf metagegevens of Curator-schijf is en selecteert er een als deze nog niet in het systeem bestond of uit het systeem is verwijderd/verdwenen. Controleer het Hades-logboek.
3. Controleer df -h in / home/nutanix/data/logs/sysstats/df.INFO om te zien wanneer de schijf voor het laatst als aangekoppeld werd gezien.
4. Controleer /home/nutanix/data/logs/sysstats/iostat.INFO om te zien wanneer het apparaat voor het laatst is gezien.
5. Controleer /home/log/messages op fouten op het apparaat, waarbij u specifiek de apparaatnaam gebruikt, bijvoorbeeld sda of sdc.
6. Controleer dmesg op fouten op de controller of het apparaat. Voer dmesg | uit less voor de huidige berichten in de ring, of kijk naar de gelogde dmesg-uitvoer in /var/log .
Identificeer de oorzaak van de schijffout.
- Controleer wanneer de CVM voor het laatst is gestart als de laatste gebruiksgegevens van de schijf niet beschikbaar waren. Nogmaals, raadpleeg de Stargate- en de Hades-logboeken.
- Controleer het Stargate-logboek rond het tijdstip van de schijfstoring. Stargate stuurt een schijf naar Hades om te controleren of deze niet binnen een bepaalde tijd reageert en ops time-out tegen die schijf. Verschillende fouten en versies vertegenwoordigen het anders, dus zoek altijd op schijf-ID en schijfserienummer.
Controleer het aantal schijffouten.
Als een schijf meer dan eens in dit slot defect raakte en de schijf werd vervangen, zou dit op dat moment op een mogelijk chassisprobleem duiden.

Controleer of lsiutil fouten vertoont.
Als lsiutil fouten gelijkmatig op meerdere slots vertoont, kan dit duiden op een slechte controller.

Controleer op bekende problemen met de schijf-FW op schijffouten.

Als dit een G8 is, is de MCU-versie 1.1A of hoger en zijn de backplanes ook geüpgraded:
Raadpleeg dit document: NX-G8: Nutanix Backplane CPLD, Moederbord CPLD en Multinode EC firmware handmatige upgradehandleiding .

Als dit een G8 is, controleer dan of de FW van de LSI-controller 25.00.00 of hoger is:
Er zijn oplossingen met betrekking tot SSD-stabiliteit wanneer trim in gebruik is, die een instantie corrigeren die ervoor zorgt dat PHY-fouten op schijven en instabiliteit optreden. Vanuit het oogpunt van probleemoplossing is het ook belangrijk dat u FW 25.00.00 of hoger gebruikt.

Opmerking: Gebeurtenis-ID: 191 , G-Sense_Error_Rate in " smartctl "-uitvoer voor Seagate HDD's kan veilig worden genegeerd, tenzij er sprake is van prestatieverlies. De waarde G-Sense_Error_Rate geeft alleen aan dat de HDD zich aanpast aan schok- of trillingsdetectie. Seagate raadt aan deze waarden niet te vertrouwen, omdat deze teller de drempel dynamisch verandert tijdens runtime.