ESXi 節點 PSOD 或使用 lsi-msgpt35 driver 版本等於或早於 18.00.01.00 時缺少多個驅動器 - Lenovo ThinkSystem
ESXi 節點 PSOD 或使用 lsi-msgpt35 driver 版本等於或早於 18.00.01.00 時缺少多個驅動器 - Lenovo ThinkSystem
ESXi 節點 PSOD 或使用 lsi-msgpt35 driver 版本等於或早於 18.00.01.00 時缺少多個驅動器 - Lenovo ThinkSystem
症狀
ESXi 伺服器或 vSAN 集群中的節點可能會報告 PSOD,顯示訊息 "... 磁碟名稱: naa.5000xxxxxxxxx 偵測到暫停的 I/O...",或可能報告所有連接到 HBA 的驅動器都缺失。
在使用 lsi-msgpt35 driver 版本 18.00.01.00(或更早版本)時,該問題每 49 天的正常運行時間發生的可能性很小。
(其中 PSOD = 紫色死亡螢幕,HBA = 主機匯流排適配器)
受影響的配置
系統可能是以下任何 Lenovo 伺服器:
- ThinkAgile VX 4-Socket 4U 認證節點,型號 7Z12,任何型號
- ThinkAgile VX 系列 VX2330/VX3330/VX3331/VX7330-N,型號 7Z62,任何型號
- ThinkAgile VX 系列 VX3530-G/VX5530/VX7530/VX7531,型號 7Z63,任何型號
- ThinkAgile VX2320,型號 7Y13,任何型號
- ThinkAgile VX2320,型號 7Y93,任何型號
- ThinkAgile VX3320,型號 7Y13,任何型號
- ThinkAgile VX3320,型號 7Y93,任何型號
- ThinkAgile VX3520-G,型號 7Y14,任何型號
- ThinkAgile VX3520-G,型號 7Y94,任何型號
- ThinkAgile VX3720,型號 7Y12,任何型號
- ThinkAgile VX3720,型號 7Y92,任何型號
- ThinkAgile VX5520,型號 7Y14,任何型號
- ThinkAgile VX5520,型號 7Y94,任何型號
- ThinkAgile VX7520,型號 7Y14,任何型號
- ThinkAgile VX7520-N,型號 7Y94,任何型號
- ThinkAgile VX7820 設備,型號 7Z13,任何型號,任何 CTO1WW
- ThinkSystem SD530,型號 7X21,任何型號
- ThinkSystem SD630 v2,型號 7D1K,任何型號
- ThinkSystem SD650 雙節點 WCT 托盤,任何型號 7X58
- ThinkSystem SD650 v2,型號 7D1M,任何型號
- ThinkSystem SD650-N V2,型號 7D1N,任何型號
- ThinkSystem SR150,型號 7Y54,任何型號
- ThinkSystem SR158,型號 7Y55,任何型號
- ThinkSystem SR250,型號 7Y51,任何型號
- ThinkSystem SR250,型號 7Y52,任何型號
- ThinkSystem SR250,型號 7Y72,任何型號
- ThinkSystem SR250,型號 7Y73,任何型號
- ThinkSystem SR258,型號 7Y53,任何型號
- ThinkSystem SR530,型號 7X07,任何型號
- ThinkSystem SR530,型號 7X08,任何型號
- ThinkSystem SR550,型號 7X03,任何型號
- ThinkSystem SR550,型號 7X04,任何型號
- ThinkSystem SR570,型號 7Y02,任何型號
- ThinkSystem SR570,型號 7Y03,任何型號
- ThinkSystem SR590,型號 7X98,任何型號
- ThinkSystem SR590,型號 7X99,任何型號
- ThinkSystem SR630 V2,型號 7Z70/7Z71,任何型號
- ThinkSystem SR630,型號 7X01,任何型號
- ThinkSystem SR630,型號 7X02,任何型號
- ThinkSystem SR650 V2,型號 7Z72/7Z73,任何型號
- ThinkSystem SR650,型號 7X05,任何型號
- ThinkSystem SR650,型號 7X06,任何型號
- ThinkSystem SR670 V2,型號 7Z22/7Z23/7D47,任何型號,任何 19A/MLK
- ThinkSystem SR670,型號 7Y36,任何型號
- ThinkSystem SR670,型號 7Y37,任何型號
- ThinkSystem ST250,型號 7Y45,任何型號
- ThinkSystem ST250,型號 7Y46,任何型號
- ThinkSystem ST258,型號 7Y47,任何型號
- ThinkSystem ST550,型號 7X09,任何型號 7X09,7X10
- ThinkSystem ST550,型號 7X10,任何型號
- ThinkSystem ST558,型號 7Y15,任何型號
- ThinkSystem ST558,型號 7Y16,任何型號
- ThinkSystem ST650 V2,型號 7Z74/7Z75,任何型號
- ThinkSystem ST658 V2,型號 7Z76,任何型號
系統配置有以下一個或多個 Lenovo 選項:
- 430-16e HBA,選項 7Y37A01091,任何 FRU
- 430-8e HBA,選項 7Y37A01090,任何 FRU
- RAID 430-16i,選項 7Y37A01089,任何 FRU
- RAID 430-8i,選項 7Y37A01088,任何 FRU
- ThinkSystem 440-16e SAS/SATA PCIe Gen4 12Gb HBA,選項 SR17A32420,任何型號
- ThinkSystem 440-16i SAS/SATA PCIe Gen4 12Gb 內部 HBA,任何型號
此提示不特定於任何軟體。
系統具有上述症狀。
解決方案
此行為在 ThinkSystem 系列伺服器 SAS HBA VMware driver 版本 18.00.02.00 中已修正。
該檔案已可用,通過在 Lenovo 支援網頁上選擇適當的產品組、系統類型、產品名稱、產品機型和作業系統,訪問以下網址:
http://datacentersupport.lenovo.com/
變通方法
在 49 天的正常運行時間之前,重新啟動 ESXi 系統。
如果系統遇到此問題,重新啟動將恢復正常伺服器操作,且不會有任何功能性副作用。或者強制存儲重新偵測。
附加資訊
正常運行時間 + I/O 等待時間在驅動器調用中使用,該變數可以持有的值最大為 2^32-1。
此值為毫秒,2^32-1= 4294967295 毫秒 = 49 天 17 小時 2 分 47.295 秒。
當正常運行時間 + I/O 等待時間超過 2^32-1 時,HBA 將失去與所有驅動器的通信。
當正常運行時間 = 2^32-1 時,將重置回 0。
每 49 天 17 小時 2 分 47.295 秒的正常運行時間中,有幾毫秒的機會會遇到此問題。
lsi-msgpt35 驅動版本 18.00.02.00 已經為 ESXi 簽署,並可在 Lenovo 支援網站上獲得。vSAN 認證和包含在 Lenovo 自訂映像 (CI) 中將於 2021 年 12 月提供。
lsi-msgpt35 驅動版本 15.xx 到 18.00.01.00 受到此問題影響。該問題在版本 18.00.02.00 中已修正。15.x 之前的版本不受影響。