So funktionieren Upgrades bei Nutanix
So funktionieren Upgrades bei Nutanix
So funktionieren Upgrades bei Nutanix
Beschreibung
Upgrades bei Nutanix sind immer so konzipiert, dass sie ohne Ausfallzeiten für Benutzer-VMs und ihre Workloads durchgeführt werden können. Dieses Dokument soll als Einführung dienen und beschreiben, wie die einzelnen Upgrade-Typen funktionieren, und einige nützliche Best Practices für Administratoren bereitstellen. Ähnliche Informationen finden Sie im Acropolis Upgrade Guide (denken Sie daran, immer den Guide auszuwählen, der zum aktuell auf Ihrem Cluster ausgeführten AOS passt).
Betroffene Versionen: Alle Versionen, Alle Nutanix Files-Versionen, ALLE LCM-Versionen, ALLE AOS-Versionen, ALLE AHV-Versionen
Folgendes gilt für ALLE Nutanix-Upgrades:
Ist eine Ausfallzeit erforderlich?
Nein. Benutzer-VMs können je nach Art des durchgeführten Upgrades live zwischen Hosts migrieren, ihre Dienste sollten jedoch nicht beeinträchtigt werden. Benutzer sollten während des Upgrades weiterhin Zugriff auf ihre VMs haben und normal arbeiten können. VMs, die nicht live migriert werden können, wie z. B. solche mit vGPUs oder Affinitätsregeln, müssen vor jedem Upgrade, das einen Neustart des Hosts erfordert, heruntergefahren oder diese Einstellungen entfernt werden. Andernfalls bleibt das Upgrade beim Evakuieren der Benutzer-VMs hängen.
Gibt es Auswirkungen auf die Leistung?
Nutanix empfiehlt, Upgrades während des geplanten Wartungsfensters oder außerhalb der normalen Geschäftszeiten durchzuführen. Andernfalls kann es während des Upgrade-Vorgangs zu Verzögerungen kommen. Diese Verzögerung kann sich insbesondere bei Clustern bemerkbar machen, die nur Netzwerk-Uplinks mit einer Geschwindigkeit von 1 GB verwenden, da bei dieser Konfiguration nur eine begrenzte Bandbreite verfügbar ist.
Welche Upgrade-Reihenfolge wird empfohlen?
Um die für die Upgrades einzuhaltende Reihenfolge zu verstehen, können Sie den Abschnitt „Empfohlene Upgrade-Reihenfolge“ im Akropolis-Handbuch zu Rate ziehen.
Was passiert, wenn das Upgrade hängen bleibt?
- Wenn bei den Prüfungen vor dem Upgrade ein Fehler auftritt, lesen Sie den in Prism zitierten Artikel, um Informationen zur Behebung des Problems zu erhalten. Klicken Sie nach Behebung des Problems auf den Link, um zu den verfügbaren Versionen in Prism zurückzukehren, und versuchen Sie das Upgrade dann erneut.
- Wenn das Upgrade selbst hängen bleibt, wenden Sie sich an den Nutanix-Support . Versuchen Sie nicht, einzugreifen , da dies möglicherweise zu einem Ausfall führen kann.
- Nutanix unterstützt kein Rollback für Software-Upgrades.
Woher weiß ich, ob eine Version kompatibel ist?
- Wenn in den Abschnitten „Upgrade-Software“ oder „Life Cycle Manager (LCM)“ von Prism eine Version angezeigt wird, bedeutet dies automatisch, dass die Kompatibilität mit dem aktuellen Cluster bereits bestätigt ist und Sie jederzeit auf die neue Version umsteigen können.
- Wenn die gewünschte Version nicht aufgeführt ist, kann dies mehrere Gründe haben. Neuere Versionen benötigen einige Zeit, bis sie für den One-Click-Download verfügbar sind. Sie können die Binärdateien und Metadatendateien jedoch weiterhin direkt vom Nutanix-Portal abrufen und sie dann manuell in Prism hochladen. Es kann auch sein, dass Sie auf eine Zwischenversion (mehrstufiges Upgrade) umsteigen müssen, um den Cluster zunächst auf eine Version zu bringen, die auf die gewünschte Version aktualisiert werden kann.
- Auf der Seite „Upgrade-Pfade“ im Nutanix-Portal wird angezeigt, auf welche Versionen von AOS, Prism Central (PC) oder Nutanix Files Ihr Cluster jetzt basierend auf dem, was Sie derzeit ausführen, aktualisiert werden kann. Wenn Sie auf eine neuere Version wechseln müssen als die, die auf der Seite „Upgrade-Pfade“ angezeigt wird, aktualisieren Sie den Cluster zunächst auf die neuste mögliche Version. Sobald dies erledigt ist, sollten Sie beim nächsten Versuch die gewünschte Version erreichen können. Um Zeit zu sparen, denken Sie daran, dass ein Cluster, der AOS auf einem Long-Term Support (LTS)-Release-Zweig (wie 5.5.x) ausführt, immer direkt auf den nächsten verfügbaren LTS-Release-Zweig (wie 5.10.x) aktualisiert werden kann.
- Um festzustellen, ob eine bestimmte Version von AOS, Prism Central und Nutanix Files miteinander kompatibel ist, überprüfen Sie die Softwareprodukt-Interoperabilität .
Was muss ich im Vorfeld tun?
- Es ist immer eine gute idea , die neueste Version von Nutanix Cluster Check (NCC) zu installieren und auszuführen, um sicherzustellen, dass Ihr Cluster in bestmöglichem Zustand ist, bevor Sie mit einem Upgrade beginnen.
- Um sicherzustellen, dass Prism Zugriff auf die gewünschte Software und Firmware hat, überprüfen Sie die Port- und Firewall- Anforderungen und stellen Sie sicher, dass Ihr Netzwerk entsprechend konfiguriert ist. Wenn Sie Prism Central verwenden, stellen Sie sicher, dass der SSL-Port 9440 zwischen der Prism Central VM und allen registrierten Clustern in beide Richtungen geöffnet ist.
- Wenn Ihr Cluster bei Prism Central registriert ist, stellen Sie sicher, dass dies auf den neuesten Stand gebracht wird, bevor Sie AOS auf dem Prism Element-Cluster aktualisieren. Prism Central ist für die Verwaltung von Prism Element-Clustern konzipiert, die sich innerhalb desselben Hauptbuilds und früherer Versionen befinden. Beispielsweise wird Prism Central 5.10.0.1 unterstützt, um Prism Element-Cluster mit 5.10.0.2 zu verwalten, da der Hauptbuild (5.10.0) derselbe ist. PC 5.10.0.1 wird jedoch nicht unterstützt, um PE-Cluster mit 5.10.1 zu verwalten, da diese PE-Version ein späterer Hauptbuild ist. In solchen Fällen sollte der PC auf 5.10.1 oder spätere Builds aktualisiert werden, um ihn wieder mit den von ihm verwalteten Clustern kompatibel zu machen.
- Überprüfen Sie die Seiten „Upgrade-Pfade“ und „Kompatibilitätsmatrix“ im Nutanix-Portal, um sicherzustellen, dass die neue Software kompatibel ist. Die Kompatibilitätsmatrix enthält auch Hinweise zur Softwarekompatibilität mit Nutanix Ready Partner Solutions und AHV-Gastbetriebssystemen.
- Lesen Sie die Versionshinweise im Support-Portal, um Informationen zu bekannten Problemen in der Version sowie zu den darin enthaltenen Fehlerbehebungen, Verbesserungen oder Funktionen zu erhalten.
- Wenn Sie einen Hypervisor oder eine Anwendung eines Drittanbieters verwenden, überprüfen Sie auf der Website des Anbieters, ob diese mit der gewünschten AOS-Version kompatibel ist.
Lösung
Nachfolgend finden Sie eine Zusammenfassung der Voraussetzungen für die einzelnen Upgrade-Typen, was auf dem Backend passiert und wie lange der Vorgang voraussichtlich dauern wird.
AOS Software
Was passiert, wenn ich auf „Jetzt aktualisieren“ klicke?
- Zunächst werden die Vorabprüfungen ausgeführt, um sicherzustellen, dass der Cluster aktualisiert werden kann. Wenn eine der Vorabprüfungen fehlschlägt, werden in Prism entsprechende Informationen angezeigt und das eigentliche AOS-Upgrade wird nicht gestartet. Benutzer müssen auf „Zurück zu Versionen“ klicken und das Upgrade erneut starten, nachdem das von den Vorabprüfungen gemeldete Problem behoben wurde. Die vollständige Liste der Vorabprüfungen und der zugehörigen Artikel finden Sie in KB 6524 .
- Als Nächstes wird die AOS-Software auf jede CVM (Controller-VM) im Cluster kopiert.
- In der letzten Phase werden die Controller-VMs im Cluster einzeln auf die neue AOS-Version neu gestartet. Der Speicherverkehr von Benutzer-VMs wird auf eine benachbarte CVM umgeleitet, während die lokale aktualisiert wird. Während dieser kurzen Zeit (ca. 10 Minuten) kann es bei den lokalen Benutzer-VMs zu einer geringfügigen zusätzlichen Latenz kommen, da sie ihre Speicher-E/A von einer Remote-CVM erhalten.
Wie lange dauert es?
Dies kann pro Knoten 15 bis 20 Minuten dauern. Der Upgrade-Prozess in einem Cluster mit zwei Knoten dauert länger als der übliche Prozess, da beim Übergang zwischen dem Einzel- und dem Zweiknotenzustand zusätzlich Daten synchronisiert werden müssen. Trotzdem bleibt der Cluster während des Upgrades betriebsbereit.
Prism Central Software
Was passiert, wenn ich auf „Jetzt aktualisieren“ klicke?
- Zunächst werden die Vorabprüfungen ausgeführt, um sicherzustellen, dass der Cluster aktualisiert werden kann. Wenn eine der Vorabprüfungen fehlschlägt, werden in Prism entsprechende Informationen angezeigt und das eigentliche Upgrade wird nicht gestartet. Benutzer müssen auf „Zurück zu Versionen“ klicken und das Upgrade erneut starten, nachdem das von den Vorabprüfungen gemeldete Problem behoben wurde. Die vollständige Liste der Vorabprüfungen und der zugehörigen Artikel finden Sie in KB 6524 .
- Wenn Sie über eine reguläre Single-VM Prism Central verfügen, wird die neue Software bereitgestellt und anschließend wird die PCVM neu gestartet, um die neue Version zu starten. Während dieser kurzen Zeit ist die Benutzeroberfläche nicht verfügbar, dies hat jedoch keine Auswirkungen auf die Prism Element-Cluster, die von Prism Central verwaltet werden.
- Wenn Sie über ein Scale-Out Prism Central (drei PCVMs) verfügen, wird die Software auf alle PCVMs kopiert. Anschließend werden sie einzeln neu gestartet, um die neue Software zu verwenden. Die Prism Central-Dienste und die Benutzeroberfläche sind während des Upgrades weiterhin verfügbar.
- Nachdem die PCVM nach dem Upgrade hochgefahren ist, dauert es einige Minuten, bis die Benutzeroberfläche verfügbar ist. Melden Sie sich an und stellen Sie sicher, dass die Aufgabe für das Prism Central-Upgrade erfolgreich (100 %) abgeschlossen wurde.
Wie lange dauert es?
Für Single-VM Prism Central etwa 25 Minuten.
Für Scale-Out Prism Central (drei PCVMs) etwa 1 Stunde.
Hypervisor-Software
Was passiert, wenn ich auf „Jetzt aktualisieren“ klicke?
- Zunächst werden die Vorabprüfungen ausgeführt, um sicherzustellen, dass der Cluster aktualisiert werden kann. Wenn eine der Vorabprüfungen fehlschlägt, werden in Prism entsprechende Informationen angezeigt und das eigentliche Hypervisor-Upgrade wird nicht gestartet. Benutzer müssen auf „Zurück zu Versionen“ klicken und das Upgrade erneut starten, nachdem das von den Vorabprüfungen gemeldete Problem behoben wurde. Die vollständige Liste der Vorabprüfungen und der zugehörigen Artikel finden Sie in KB 6524 .
- Durch das Upgrade wird ein Host im Cluster ausgewählt und eine Aufgabe zum Migrieren von Benutzer-VMs vom Host übermittelt.
- Sobald die CVM die einzige verbleibende virtuelle Maschine auf dem Host ist, wird sie in den Wartungsmodus versetzt und die neue Software für den Hypervisor bereitgestellt.
- Nachdem die neue Hypervisor-Version installiert wurde, wird ein Neustart des Hosts durchgeführt.
- Sobald der Host nach dem Neustart mit der neuen Softwareversion hochfährt, wird der Host aus dem Wartungsmodus genommen und das CVM eingeschaltet.
- Der Cluster wartet, bis die Controller-VM und ihre Dienste online sind, bevor er den nächsten Host für das Upgrade auswählt. Der Hypervisor verteilt die Benutzer-VMs je nach Bedarf auf dem aktualisierten Knoten basierend auf seiner vorhandenen Konfiguration.
Wie lange dauert es?
Dies hängt davon ab, wie lange es dauert, Benutzer-VMs von jedem Host zu evakuieren, bevor dieser für das Upgrade heruntergefahren wird. Eine gute Schätzung sind etwa 30–45 Minuten pro Knoten.
Firmware mit Life Cycle Manager (LCM)
Dieser Abschnitt konzentriert sich hauptsächlich auf Firmware-Updates mit LCM. Sie können LCM jedoch auch zum Aktualisieren von Software wie AOS und Foundation verwenden. Das Aktualisieren von Softwareeinheiten mit LCM nutzt dieselben Mechanismen, die im alten Abschnitt „One Click Upgrade Software“ von Prism verfügbar waren. Wenn Sie wissen möchten, wie diese funktionieren, lesen Sie bitte die Abschnitte dieses Dokuments, in denen diese Arbeitsabläufe beschrieben werden.
Häufig gestellte Fragen zu dieser Funktion finden Sie in KB 7536. Sie müssen Regeln in Ihrer externen Firewall konfigurieren, um LCM-Updates zuzulassen. Weitere Informationen finden Sie im Prism Web Console Guide: Firewall-Anforderungen . Ausführliche Informationen zur Verwendung der Funktion finden Sie im LCM Guide .
Die Fähigkeit von LCM, bestimmte Komponenten zu inventarisieren oder zu aktualisieren, kann davon abhängen, welche Versionen von AOS und Foundation auf dem Cluster ausgeführt werden. Benutzer, die eine vollständige Liste der verfügbaren Updates sehen möchten, sollten zunächst diese Software auf den neuesten Stand bringen oder die LCM-Versionshinweise überprüfen, um festzustellen, ob eine dieser Abhängigkeiten für Ihre Umgebung besteht.
Was passiert, wenn ich auf „Aktualisieren“ klicke?
- Zunächst werden Vorprüfungen ausgeführt, um sicherzustellen, dass sich der Cluster in einem guten Zustand befindet, damit das Upgrade fortgesetzt werden kann. Prism meldet, wenn Vorprüfungen fehlschlagen. Eine Erklärung der einzelnen Prüfungen und Hinweise zur Problembehebung finden Sie in KB 4584. Sobald das Problem, das zum Fehlschlagen der Vorprüfung geführt hat, behoben ist, führen Sie eine neue Bestandsaufnahme durch und versuchen Sie dann den Upgradevorgang erneut.
- Grundsätzlich erfordern alle über LCM durchgeführten Firmware-Updates, dass die Hosts in einen CentOS-basierten Staging-Bereich namens Phoenix booten, mit den folgenden Ausnahmen.
- Bestimmte Module für Dell-Plattformen.
- Ab LCM 2.3.2 verwendet LCM für die DISK-Firmware einen IVU-basierten Aktualisierungsmechanismus, der keinen Neustart des Hosts erfordert.
- Ab LCM 2.4.0 verwendet LCM für BIOS und BMC-Firmware unter bestimmten Bedingungen den Redfish-Aktualisierungsmechanismus, für den kein Neustart des Hosts erforderlich ist.
- LCM verfügt über eine integrierte Intelligenz, die angibt, in welcher Reihenfolge die Firmware-Updates durchgeführt werden sollen. Benutzer müssen sich also keine Gedanken darüber machen, welche Updates zuerst durchgeführt werden sollen. Benutzer können einfach die Aktion „Alle aktualisieren“ auswählen und LCM erfüllt automatisch alle Abhängigkeiten zwischen der Firmware.
- Wenn mehrere Hosts für die Durchführung von Firmware-Updates ausgewählt werden, evakuiert LCM die Benutzer-VMs nacheinander von den Hosts und bootet sie in den Staging-Bereich von Phoenix, um die Updates durchzuführen. Es werden keine Benutzer-VMs ausgeschaltet und Ihre Arbeitslast sollte weiterhin ohne Unterbrechung ausgeführt werden.
- Abhängig von der zu aktualisierenden Firmware kann es vorkommen, dass Ihr Hypervisor mehrmals in Phoenix neu gestartet wird. Dies ist ein normales Verhalten und Sie sollten nicht versuchen, einzugreifen.
- Sobald die Firmware-Updates abgeschlossen sind, wird der ausgewählte Knoten wieder in den Hypervisor gebootet und die lokale Controller-VM eingeschaltet. Dabei wird sichergestellt, dass alle Clusterdienste betriebsbereit sind.
- Schließlich stellt der LCM sicher, dass der lokale Hypervisor wieder Benutzer-VMs hosten kann, bevor das Upgrade auf dem nächsten Knoten fortgesetzt wird.
Wie lange dauert es?
Dies hängt von der Anzahl der Firmware-Updates ab, die auf einem bestimmten Knoten durchgeführt werden, und davon, wie lange es dauert, Benutzer-VMs von jedem Host zu evakuieren. Als Referenz:
- Das SATA-DOM-Firmware-Upgrade (Phoenix) dauert normalerweise etwa 45 Minuten pro Knoten.
- BIOS und BMC-Firmware-Upgrades (Phoenix) dauern in der Regel ungefähr genauso lange wie SATA-DOM.
- BIOS und BMC-Firmware-Upgrades (Redfish) dauern in der Regel etwa 10 bis 15 Minuten.
- Das DISK-Firmware-Upgrade (IVU) dauert im Vergleich zum Phoenix-Mechanismus weniger lang, aber die Gesamtzeit ist proportional zur Anzahl der zu aktualisierenden Festplatten.
Foundation Software
Die einzige Voraussetzung für ein Foundation-Software-Upgrade ist, dass alle CVMs aktiv sind und der Foundation-Dienst im gesamten Cluster gestoppt ist. Dieser Dienst wird normalerweise nur ausgeführt, wenn ein LCM-Upgrade oder ein Cluster-Expand-Vorgang stattfindet.
Was passiert, wenn ich auf „Jetzt aktualisieren“ klicke?
Die Foundation-Binärdateien sind Updates auf allen CVMs. Es werden keine laufenden Dienste, CVMs oder Hypervisoren neu gestartet.
Wie lange dauert es?
Dies dauert etwa eine Minute.
Nutanix Cluster Check (NCC) Software
Es gibt keine Voraussetzungen für das NCC-Upgrade, außer dass alle CVMs aktiv sein müssen. Anweisungen zum Upgrade finden Sie im NCC-Handbuch .
Was passiert, wenn ich auf „Jetzt aktualisieren“ klicke?
Die neue NCC-Software wird auf jeden CVM kopiert und anschließend wird der cluster_health-Dienst, der für die Integritätsüberwachung und die den Clusterwarnungen zugrunde liegende Logik verantwortlich ist, auf jedem Knoten neu gestartet. Es werden keine am Datenpfad beteiligten Dienste neu gestartet.
Wie lange dauert es?
Dies dauert etwa fünf Minuten.
Dateiserver-Software (Nutanix Files)
Installieren (oder Aktualisieren) von Dateien
Was passiert, wenn ich auf „Jetzt aktualisieren“ klicke?
- Zunächst werden die Vorabprüfungen ausgeführt, um sicherzustellen, dass der Cluster aktualisiert werden kann. Wenn eine der Vorabprüfungen fehlschlägt, werden in Prism entsprechende Informationen angezeigt und das eigentliche Dateiserver-Upgrade wird nicht gestartet. Benutzer müssen auf „Zurück zu Versionen“ klicken und das Upgrade erneut starten, nachdem das von den Vorabprüfungen gemeldete Problem behoben wurde. Die vollständige Liste der Vorabprüfungen und der zugehörigen Artikel finden Sie in KB-6524 .
- Sobald das Upgrade des Dateiservers beginnt, wird jede Dateiserver-VM einzeln auf die neue Nutanix Files-Version aktualisiert. Während eine FSVM für das Upgrade ausfällt, kann es bei Benutzern, die mit von diesem Knoten gehosteten Freigaben verbunden sind, für etwa 20 bis 30 Sekunden zu einem Verbindungsverlust kommen. Nach dieser kurzen Zeitspanne wird eine andere FSVM diese Freigaben hosten und Benutzer erhalten wieder Zugriff auf ihre Dateien.
- Nachdem jede FSVM ihren Neustart auf die neue Version von Nutanix Files abgeschlossen hat, stellt das Upgrade sicher, dass sie erneut Freigaben hosten kann, bevor mit dem Upgrade der nächsten FSVM begonnen wird.
Wie lange dauert es?
Etwa 20 Minuten pro Dateiserver-VM.
Weitere Informationen
- Nutanix KB 6945 – Originaldokument im Nutanix Portal