Nutanix 的升級工作原理

Nutanix 的升級工作原理

Nutanix 的升級工作原理

這份文件為翻譯程式自動翻譯結果,請點選以下連結流灠英文版文件內容。

描述

Nutanix 的升級始終設計為無需用戶虛擬機器及其工作負載出現任何停機即可完成。本文檔旨在介紹每種類型的升級如何運作,並為管理員分享一些有用的最佳實踐。您可以在Acropolis 升級指南中找到類似的資訊(請記住始終選擇與叢集上目前運行的 AOS 相符的指南)。

受影響的版本:所有版本、所有 Nutanix 檔案版本、所有 LCM 版本、所有 AOS 版本、所有 AHV 版本
以下內容適用於所有Nutanix 升級:

是否需要停機?

不會。使用者應保持對其虛擬機器的訪問,並能夠在升級期間正常運作。無法即時遷移的虛擬機器(例如具有 vGPU 或關聯規則的虛擬機器)需要在需要主機重新啟動的任何升級之前關閉電源或刪除這些設定。如果不這樣做,將導致升級在撤離用戶虛擬機器的過程中陷入困境。

對性能有影響嗎?

Nutanix 建議在計劃的維護時段或正常工作時間之外執行升級;否則,用戶可能會在升級過程中遇到延遲。由於此配置上可用的頻寬有限,對於僅使用 1GB 速度網路上行鏈路的叢集來說,這種延遲可能尤其明顯。

推薦的升級順序是什麼?

可以參考 acropolis 指南中的建議升級順序部分來了解升級應遵循的順序。

如果升級卡住了怎麼辦?

  • 如果您在升級前檢查期間遇到失敗,請查看 Prism 中引用的文章以獲取有關如何解決該問題的資訊。問題解決後,按一下連結返回 Prism 中的可用版本,然後再次嘗試升級。
  • 如果升級本身遇到困難,請聯絡Nutanix 支援尋求協助。不要嘗試幹預,因為這可能會導致中斷。
  • Nutanix 不支援軟體升級回滾。

我如何知道版本是否相容?

  • 如果某個版本出現在 Prism 的升級軟體或生命週期管理器 (LCM) 部分中,則自動表示它已確認與現有叢集相容,您可以隨時前往新版本。
  • 如果您沒有看到您想要列出的版本,可能有多種原因。較新的版本需要一些時間才能提供一鍵下載,但您仍然可以直接從Nutanix 入口網站獲取二進位和元資料文件,然後手動將其上傳到 Prism。也可能出現這樣的情況:您需要轉到中間版本(多步驟升級),以便先將叢集升級到能夠升級到您所需版本的版本。
  • Nutanix 入口網站上的升級路徑頁面將根據您目前運行的情況向您顯示您的叢集現在可以升級到的 AOS、Prism Central (PC) 或 Nutanix 檔案版本。如果您需要升級到比升級路徑頁面中顯示的版本更高的版本,請先將叢集升級到最新的可能版本。完成後,您應該能夠在下次嘗試時達到您想要的版本。為了節省時間,請記住,在長期支援 (LTS) 版本分支(例如 5.5.x)上執行 AOS 的叢集始終可以直接升級到下一個可用的 LTS 版本分支(例如 5.10.x)。
  • 若要查看給定版本的 AOS、Prism Central 和 Nutanix Files 是否彼此相容,請檢查軟體產品互通性

我該提前做什麼?

  • 安裝並執行最新版本的Nutanix Cluster Check (NCC)始終是一個好idea ,以確保您的叢集在開始升級之前處於最佳狀態。
  • 為了確保 Prism 能夠存取您想要選擇的軟體和韌體,請檢查連接埠防火牆要求並驗證您的網路是否已相應配置。如果您使用 Prism Central,請確保 SSL 連接埠 9440 在 Prism Central VM 和任何已註冊叢集之間雙向開放。
  • 如果您的叢集已註冊到 Prism Central,請確保在升級 Prism Element 叢集上的 AOS 之前將其更新為最新。 Prism Central 旨在管理同一主要版本和早期版本中的 Prism Element 叢集。例如,由於主要版本 (5.10.0) 相同,因此支援 Prism Central 5.10.0.1 來管理運行 5.10.0.2 的 Prism Element 叢集。但是,不支援 PC 5.10.0.1 管理運行 5.10.1 的 PE 集群,因為此 PE 版本是較晚的主要版本。在這種情況下,PC 應升級至 5.10.1 或更高版本,以使其恢復與其管理的叢集的兼容性。
  • 檢查 Nutanix 入口網站上的升級路徑相容性清單頁面,確保新軟體相容。相容性表還包含 Nutanix Ready 合作夥伴解決方案和 AHV 來賓作業系統的軟體相容性的指南。
  • 閱讀支援入口網站上的發行說明,以取得有關該發行版中已知問題的資訊以及附帶的錯誤修復、改進或功能。
  • 如果您使用第三方虛擬機器管理程序或應用程序,請檢查供應商的網站以確保其與所需的 AOS 版本相容。

解決方案

下面您將找到每種升級類型的先決條件、後端發生的情況以及操作預計需要多長時間的摘要。

AOS軟體

升級先決條件

當我單擊“立即升級”時會發生什麼?

  • 首先,將運行升級前檢查以確保叢集能夠升級。如果任何升級前檢查失敗,您將在 Prism 中看到相關信息,並且實際的 AOS 升級將不會啟動。在解決預檢查報告的問題後,使用者必須按一下「返回版本」並再次開始升級。要查看預檢查及其相關文章的完整列表,請查看KB 6524
  • 接下來,將 AOS 軟體複製到叢集中的每個 CVM(控制器虛擬機器)。
  • 在最後階段,叢集中的控制器虛擬機器一次重新啟動到新的 AOS 版本。當本地 CVM 升級時,來自使用者 VM 的儲存流量將被重定向到相鄰的 CVM。在此短時間內(約 10 分鐘),本機用戶 VM 可能會遇到少量額外延遲,因為它們正在從遠端 CVM 接收儲存 I/O。

多久時間?

每個節點可能需要 15-20 分鐘。兩節點叢集中的升級過程將比通常的過程花費更長的時間,因為在單節點和兩節點狀態之間轉換時需要同步資料的額外步驟。儘管如此,叢集在升級期間仍保持運作。

棱鏡中央軟體

概述和要求

當我單擊“立即升級”時會發生什麼?

  • 首先,將運行升級前檢查以確保叢集能夠升級。如果任何升級前檢查失敗,您將在 Prism 中看到相關信息,並且實際升級將不會開始。在解決預檢查報告的問題後,使用者必須按一下「返回版本」並再次開始升級。要查看預檢查及其相關文章的完整列表,請查看KB 6524
  • 如果您有常規的單虛擬機器 Prism Central,新軟體將被暫存,然後 PCVM 將重新啟動以進入新版本。在這段時間內,UI 將不可用,但對 Prism Central 管理的 Prism Element 叢集不會產生影響。
  • 如果您有橫向擴展 Prism Central(三個 PCVM),軟體將複製到每個 PCVM,然後它們將一次重新啟動一個以使用新軟體。 Prism Central 服務和 UI 在升級期間仍然可用。
  • PCVM 從升級啟動後,需要幾分鐘的時間 UI 才可使用。登入並確保 Prism Central 升級任務已成功完成 (100%)。

多久時間?

對於單虛擬機 Prism Central,大約 25 分鐘。
對於橫向擴展 Prism Central(三個 PCVM),大約 1 小時。

管理程式軟體

當我單擊“立即升級”時會發生什麼?

  • 首先,將運行升級前檢查以確保叢集能夠升級。如果任何升級前檢查失敗,您將在 Prism 中看到相關信息,並且實際的虛擬機管理程式升級將不會啟動。在解決預檢查報告的問題後,使用者必須按一下「返回版本」並再次開始升級。要查看預檢查及其相關文章的完整列表,請查看KB 6524
  • 升級會選擇叢集中的主機,並提交任務以從該主機遷移使用者虛擬機器。
  • 一旦 CVM 成為主機上剩下的唯一虛擬機,它就會進入維護模式,虛擬機管理程式的新軟體將會上演。
  • 安裝新的虛擬機器管理程式版本後,將重新啟動主機。
  • 一旦主機從重新啟動狀態恢復到新軟體版本,主機就會退出維護模式,並且 CVM 將通電。
  • 叢集將等待控制器虛擬機器及其服務上線,然後再選擇下一個主機進行升級。虛擬機器管理程式將根據其現有配置根據需要平衡升級節點上的使用者虛擬機器。

多久時間?

這取決於在升級之前從每台主機中撤出使用者虛擬機器所需的時間。一個好的估計是每個節點大約 30-45 分鐘。

具有生命週期管理器 (LCM) 的韌體

本節將主要關注 LCM 的韌體更新;但是,您也可以使用 LCM 來升級 AOS 和 Foundation 等軟體。使用 LCM 更新軟體實體所使用的機制與 Prism 的舊版一鍵升級軟體部分所提供的機制相同。如果您對這些工作流程感興趣,請參閱本文檔中描述這些工作流程的部分。

有關此功能的常見問題解答,請參閱知識庫文章 7536 。您必須在外部防火牆中設定規則以允許 LCM 更新。有關詳細信息,請參閱Prism Web 控制台指南:防火牆要求。有關使用該功能的完整詳細信息,請參閱LCM 指南

LCM 清點或更新某些元件的能力可能取決於叢集上執行的 AOS 和 Foundation 的版本。希望查看可用更新的完整清單的使用者應考慮首先將這些軟體更新到最新版本,或查看LCM 發行說明以查看您的環境中是否存在任何依賴項。

當我點擊“更新”時會發生什麼?

  • 將運行第一次預檢查,以確保叢集處於良好狀態,以便升級繼續進行。如果任何預檢查失敗,Prism 將報告,您可以查閱KB 4584以取得每個預檢查的說明以及如何解決問題。解決導致預檢查失敗的問題後,執行新的清單,然後再次嘗試升級操作。
  • 基本上,透過 LCM 執行的所有韌體更新都要求主機啟動到名為 Phoenix 的基於 CentOS 的暫存區域,但以下情況除外。
    • 適用於 Dell 平台的某些模組。
    • 從 LCM 2.3.2 開始,對於 DISK 韌體,LCM 使用基於 IVU 的更新機制,不需要主機重新啟動。
    • LCM 2.4.0以後,對於BIOS和BMC韌體,當滿足某些條件時,LCM採用Redfish更新機制,不需要主機重新啟動。
  • LCM 具有內建智能,可以告訴它執行韌體更新的順序,因此用戶無需擔心首先執行哪些更新。使用者只需選擇「全部更新」操作,LCM 就會自動滿足韌體之間的所有依賴關係。
  • 如果選擇多個主機執行韌體更新,LCM 將一次從主機中撤出一個使用者 VM,並將其引導至 Phoenix 暫存區域以執行更新。不會關閉任何使用者虛擬機,並且您的工作負載應繼續得到服務而不會中斷。
  • 根據升級的韌體,您可能會看到虛擬機器管理程式多次重新啟動回到 Phoenix。這是預期行為,您不應嘗試幹預。
  • 韌體更新完成後,選定的節點將重新啟動至虛擬機管理程式並啟動本機控制器虛擬機,確保所有叢集服務均已啟動並執行。
  • 最後,LCM 將確保本機虛擬機器管理程式再次可以託管使用者 VM,然後再繼續升級到下一個節點。

多久時間?

這取決於給定節點上執行的韌體更新數量以及從每個主機撤離用戶虛擬機器所需的時間。作為參考,

  • 每個節點的 SATA DOM 韌體升級 (Phoenix) 往往需要約 45 分鐘。
  • BIOS和 BMC 韌體升級 (Phoenix) 所花費的時間與 SATA DOM 大致相同。
  • BIOS和 BMC 韌體升級 (Redfish) 通常需要約 10 - 15 分鐘。
  • 與 Phoenix 機制相比,磁碟韌體升級 (IVU) 所需的時間較少,但總時間與升級的磁碟數量成正比。

基礎軟體

Foundation 軟體升級的唯一先決條件是所有 CVM 均已啟動,且整個叢集中的 Foundation 服務處於停止狀態。除非進行 LCM 升級或叢集擴展操作,否則該服務通常不會運作。

當我單擊“立即升級”時會發生什麼?

基礎二進位檔案在所有 CVM 上進行更新。不會重新啟動正在執行的服務、CVM 或虛擬機器管理程式。

多久時間?

這大約需要一分鐘。

Nutanix 集群檢查 (NCC) 軟體

除了所有 CVM 必須啟動之外,NCC 升級沒有任何先決條件。請參閱NCC 指南,了解如何升級的說明。

當我單擊“立即升級”時會發生什麼?

新的 NCC 軟體被複製到每個 CVM,然後在每個節點上重新啟動負責運行狀況監控和叢集警報底層邏輯的 cluster_health 服務。資料路徑中涉及的服務不會重新啟動。

多久時間?

這大約需要五分鐘。

檔案伺服器(Nutanix Files)軟體

安裝(或升級)文件

當我單擊“立即升級”時會發生什麼?

  • 首先,將運行升級前檢查以確保叢集能夠升級。如果任何升級前檢查失敗,您將在 Prism 中看到有關此信息,並且實際的文件伺服器升級將不會啟動。在解決預檢查報告的問題後,使用者必須按一下「返回版本」並再次開始升級。要查看預檢查及其相關文章的完整列表,請查看KB-6524
  • 檔案伺服器升級開始後,每個檔案伺服器虛擬機器都會一次升級到新的 Nutanix Files 版本。當 FSVM 因升級而關閉時,連接到該節點託管的共用的使用者可能會遇到連線遺失持續約 20-30 秒的情況。經過這短暫的一段時間後,另一個 FSVM 將開始託管這些共享,用戶將重新獲得對其文件的存取權限。
  • 每個 FSVM 完成重新啟動到新版本的 Nutanix Files 後,升級將確保它可以在開始升級下一個 FSVM 之前再次託管共用。

多久時間?

每個文件伺服器 VM 大約 20 分鐘。

附加資訊

文件ID:HT514179
原始發布日期:09/08/2022
Last Modified Date:09/02/2024