Come funzionano gli aggiornamenti in Nutanix
Come funzionano gli aggiornamenti in Nutanix
Come funzionano gli aggiornamenti in Nutanix
Descrizione
Gli aggiornamenti in Nutanix sono sempre progettati per essere eseguiti senza richiedere tempi di inattività per le VM utente e i loro carichi di lavoro. Questo documento intende fungere da introduzione descrivendo come funziona ogni tipo di aggiornamento e condividere alcune utili best practice per gli amministratori. Troverai informazioni simili nella Acropolis Upgrade Guide (ricordati di scegliere sempre la guida che corrisponde all'AOS attualmente in esecuzione sul tuo cluster).
Versioni interessate: tutte le versioni, tutte le versioni di Nutanix Files, TUTTE le versioni di LCM, TUTTE le versioni di AOS, TUTTE le versioni di AHV
Quanto segue è vero per TUTTI gli aggiornamenti Nutanix:
È necessario un periodo di inattività?
No. Le VM utente possono migrare in tempo reale tra host a seconda del tipo di aggiornamento eseguito, ma non dovrebbe esserci alcun impatto sui loro servizi. Gli utenti dovrebbero mantenere l'accesso alle loro VM ed essere in grado di lavorare normalmente durante l'aggiornamento. Le VM che non possono migrare in tempo reale, come quelle con vGPU o Affinity Rules, dovranno essere spente o queste impostazioni dovranno essere rimosse prima di qualsiasi aggiornamento che richieda un riavvio dell'host. In caso contrario, l'aggiornamento rimarrà bloccato nel processo di evacuazione delle VM utente.
C'è un impatto sulle prestazioni?
Nutanix consiglia di eseguire gli aggiornamenti durante la finestra di manutenzione programmata o al di fuori del normale orario di lavoro; in caso contrario, gli utenti potrebbero riscontrare latenza durante il processo di aggiornamento. Questa latenza potrebbe essere particolarmente evidente per i cluster che utilizzano solo uplink di rete a velocità di 1 GB a causa della larghezza di banda limitata disponibile su questa configurazione.
Qual è l'ordine di aggiornamento consigliato?
Per comprendere l'ordine da seguire per gli aggiornamenti, è possibile fare riferimento alla sezione Ordine di aggiornamento consigliato della guida dell'Acropoli.
Cosa succede se l'aggiornamento si blocca?
- Se riscontri un errore durante i controlli pre-aggiornamento, consulta l'articolo citato in Prism per informazioni su come risolvere il problema. Una volta risolto il problema, fai clic sul collegamento per tornare alle versioni disponibili in Prism e quindi riprovare l'aggiornamento.
- Se l'aggiornamento stesso è bloccato, contatta il supporto Nutanix per assistenza. Non provare a intervenire perché ciò potrebbe potenzialmente causare un'interruzione.
- Nutanix non supporta il rollback per gli aggiornamenti software.
Come faccio a sapere se una versione è compatibile?
- Se una versione appare nelle sezioni Upgrade Software o Life Cycle Manager (LCM) di Prism, significa automaticamente che è già stata confermata la sua compatibilità con il cluster così com'è e che è possibile passare alla nuova versione in qualsiasi momento.
- Se non vedi elencata la versione che desideri, potrebbero esserci diversi motivi. Le release più recenti impiegano un po' di tempo prima di essere rese disponibili per One-Click Download, ma puoi comunque ottenere i file binari e metadati direttamente dal Nutanix Portal e poi caricarli manualmente su Prism. Potrebbe anche essere necessario passare a una versione intermedia (aggiornamento multi-step) per portare prima il cluster a una versione in grado di eseguire l'aggiornamento alla versione desiderata.
- La pagina Percorsi di aggiornamento sul Portale Nutanix ti mostrerà a quali versioni di AOS, Prism Central (PC) o Nutanix Files il tuo cluster può essere portato in questo momento in base a ciò che stai attualmente eseguendo. Se hai bisogno di passare a una versione successiva a quella mostrata nella pagina Percorsi di aggiornamento, inizia aggiornando il cluster all'ultima versione possibile. Una volta fatto ciò, dovresti essere in grado di raggiungere la versione desiderata al tuo prossimo tentativo. Per risparmiare tempo, ricorda che un cluster che esegue AOS su un ramo di rilascio Long-Term Support (LTS) (come 5.5.x) può sempre eseguire l'aggiornamento direttamente al successivo ramo di rilascio LTS disponibile (come 5.10.x).
- Per verificare se una determinata versione di AOS, Prism Central e Nutanix Files sono compatibili tra loro, controllare l' interoperabilità dei prodotti software .
Cosa dovrei fare in anticipo?
- È sempre una buona idea installare ed eseguire la versione più recente di Nutanix Cluster Check (NCC) per assicurarsi che il cluster sia nelle migliori condizioni possibili prima di iniziare un aggiornamento.
- Per assicurarti che Prism abbia accesso al software e al firmware che desideri scegliere, esamina i requisiti di porta e firewall e verifica che la tua rete sia configurata di conseguenza. Se stai utilizzando Prism Central, assicurati che la porta SSL 9440 sia aperta in entrambe le direzioni tra la VM Prism Central e tutti i cluster registrati.
- Se il tuo cluster è registrato su Prism Central, assicurati che sia aggiornato prima di aggiornare AOS sul cluster Prism Element. Prism Central è progettato per gestire i cluster Prism Element che si trovano nella stessa build principale e nelle versioni precedenti. Ad esempio, Prism Central 5.10.0.1 è supportato per gestire i cluster Prism Element che eseguono 5.10.0.2 poiché la build principale (5.10.0) è la stessa. Tuttavia, PC 5.10.0.1 non è supportato per gestire i cluster PE che eseguono 5.10.1 poiché questa versione PE è una build principale successiva. In tali casi, il PC dovrebbe essere aggiornato a 5.10.1 o build successive per riportarlo in compatibilità con i cluster che gestisce.
- Controlla le pagine Upgrade Paths e Compatibility Matrix sul Nutanix Portal per assicurarti che il nuovo software sia compatibile. La Compatibility Matrix contiene anche indicazioni sulla compatibilità software con Nutanix Ready Partner Solutions e AHV Guest Operating Systems.
- Leggi le Note di rilascio sul Portale di supporto per ottenere informazioni sui problemi noti della versione, nonché sulle correzioni di bug, sui miglioramenti e sulle funzionalità in essa contenute.
- Se si utilizza un hypervisor o un'applicazione di terze parti, controllare il sito Web del fornitore per assicurarsi che sia compatibile con la versione desiderata di AOS.
Soluzione
Di seguito troverete un riepilogo dei prerequisiti per ciascun tipo di aggiornamento, cosa accade nel backend e quanto tempo può richiedere l'operazione.
Software AOS
Prerequisiti per l'aggiornamento
Cosa succede quando clicco su Aggiorna ora ?
- Innanzitutto, verranno eseguiti i controlli pre-aggiornamento per assicurarsi che il cluster possa essere aggiornato. Se uno dei controlli pre-aggiornamento fallisce, verranno visualizzate informazioni in merito in Prism e l'aggiornamento AOS effettivo non verrà avviato. Gli utenti dovranno fare clic su Back to Versions e avviare nuovamente l'aggiornamento dopo che il problema segnalato dai controlli pre-aggiornamento sarà stato risolto. Per visualizzare l'elenco completo dei controlli pre-aggiornamento e i relativi articoli, consultare KB 6524 .
- Successivamente, il software AOS viene copiato su ogni CVM (Controller VM) del cluster.
- Nell'ultima fase, le VM Controller nel cluster si riavviano una alla volta sulla nuova versione AOS. Il traffico di storage dalle VM User verrà reindirizzato a una CVM vicina mentre quella locale è in fase di aggiornamento. Durante questo breve periodo (circa 10 minuti) le VM User locali potrebbero riscontrare una piccola quantità di latenza aggiuntiva poiché stanno ricevendo il loro I/O di storage da una CVM remota.
Quanto tempo ci vuole?
Ciò potrebbe richiedere 15-20 minuti per nodo. Il processo di aggiornamento in un cluster a due nodi richiederà più tempo del solito a causa del passaggio aggiuntivo di sincronizzazione dei dati durante la transizione tra lo stato a singolo nodo e quello a due nodi. Tuttavia, il cluster rimane operativo durante l'aggiornamento.
Software centrale Prism
Cosa succede quando clicco su Aggiorna ora ?
- Innanzitutto, verranno eseguiti i controlli pre-aggiornamento per assicurarsi che il cluster possa essere aggiornato. Se uno dei controlli pre-aggiornamento fallisce, verranno visualizzate informazioni in merito in Prism e l'aggiornamento effettivo non verrà avviato. Gli utenti dovranno fare clic su Back to Versions e avviare nuovamente l'aggiornamento dopo che il problema segnalato dai controlli pre-aggiornamento sarà stato risolto. Per visualizzare l'elenco completo dei controlli pre-aggiornamento e i relativi articoli, consultare KB 6524 .
- Se hai un Prism Central Single-VM regolare, il nuovo software verrà messo in scena e poi il PCVM si riavvierà per arrivare alla nuova versione. Durante questo breve periodo l'interfaccia utente non sarà disponibile, ma non ci saranno effetti sui cluster Prism Element gestiti da Prism Central.
- Se hai uno Scale-Out Prism Central (tre PCVM), il software verrà copiato su ogni PCVM e poi si riavvieranno uno alla volta per caricare il nuovo software. I servizi e l'interfaccia utente di Prism Central saranno ancora disponibili durante l'aggiornamento.
- Dopo che il PCVM si è avviato dall'aggiornamento, ci vorranno alcuni minuti prima che l'interfaccia utente diventi disponibile. Accedi e assicurati che l'attività per l'aggiornamento di Prism Central sia stata completata correttamente (100%).
Quanto tempo ci vuole?
Per Prism Central Single-VM, circa 25 minuti.
Per Scale-Out Prism Central (tre PCVM), circa 1 ora.
Software ipervisore
- Aggiornamento AHV
- Aggiornamento ESXi
- Aggiornamento Hyper-V
- KB 3123: Politica di supporto dell'hypervisor
Cosa succede quando clicco su Aggiorna ora ?
- Innanzitutto, verranno eseguiti i controlli pre-aggiornamento per assicurarsi che il cluster possa essere aggiornato. Se uno dei controlli pre-aggiornamento fallisce, verranno visualizzate informazioni in merito in Prism e l'aggiornamento effettivo dell'hypervisor non verrà avviato. Gli utenti dovranno fare clic su Back to Versions e avviare nuovamente l'aggiornamento dopo che il problema segnalato dai controlli pre-aggiornamento sarà stato risolto. Per visualizzare l'elenco completo dei controlli pre-aggiornamento e i relativi articoli, consultare KB 6524 .
- L'aggiornamento sceglie un host nel cluster e invia un'attività per migrare le VM utente dall'host.
- Una volta che la CVM è l'unica macchina virtuale rimasta sull'host, viene posta in modalità di manutenzione e viene predisposto il nuovo software per l'hypervisor.
- Dopo l'installazione della nuova versione dell'hypervisor, viene eseguito un riavvio dell'host.
- Una volta che l'host esce dal riavvio e passa alla nuova versione del software, esce dalla modalità di manutenzione e il CVM viene acceso.
- Il cluster attenderà che la VM del controller e i suoi servizi siano online prima di selezionare il prossimo host da sottoporre all'aggiornamento. L'hypervisor bilancerà le VM utente nel nodo aggiornato in base alle necessità, in base alla sua configurazione esistente.
Quanto tempo ci vuole?
Dipende da quanto tempo ci vuole per evacuare le VM utente da ogni host prima che vada in down per l'aggiornamento. Una buona stima è di circa 30-45 minuti per nodo.
Firmware con Life Cycle Manager (LCM)
Questa sezione si concentrerà principalmente sugli aggiornamenti firmware con LCM; tuttavia, puoi anche usare LCM per aggiornare software come AOS e Foundation. L'aggiornamento di entità software con LCM utilizza gli stessi meccanismi disponibili nella sezione legacy One Click Upgrade Software di Prism. Se sei interessato a come funzionano, fai riferimento alle sezioni di questo documento che descrivono tali flussi di lavoro.
Consultare KB 7536 per una FAQ su questa funzionalità. È necessario configurare le regole nel firewall esterno per consentire gli aggiornamenti LCM. Consultare Prism Web Console Guide: Firewall Requirements per i dettagli. Consultare LCM Guide per i dettagli completi sull'utilizzo della funzionalità.
La capacità di LCM di inventariare o aggiornare determinati componenti può dipendere dalle versioni di AOS e Foundation in esecuzione sul cluster. Gli utenti che desiderano vedere un elenco completo degli aggiornamenti disponibili dovrebbero prendere in considerazione l'aggiornamento di questi software prima o controllare le Note di rilascio di LCM per vedere se una di queste dipendenze esiste per il proprio ambiente.
Cosa succede quando clicco su Aggiorna ?
- Verranno eseguiti i primi controlli preliminari per assicurarsi che il cluster sia in buone condizioni affinché l'aggiornamento possa procedere. Prism segnalerà se uno qualsiasi dei controlli preliminari fallisce e puoi consultare KB 4584 per una spiegazione di ciascuno di essi e su come risolvere il problema. Una volta risolto il problema che ha causato il fallimento del controllo preliminare, esegui un nuovo inventario e quindi prova di nuovo l'operazione di aggiornamento.
- In pratica, tutti gli aggiornamenti del firmware eseguiti tramite LCM richiedono che gli host vengano avviati in un'area di staging basata su CentOS denominata Phoenix, con le seguenti eccezioni.
- Alcuni moduli per le piattaforme Dell.
- A partire da LCM 2.3.2, per il firmware DISK, LCM utilizza un meccanismo di aggiornamento basato su IVU che non richiede il riavvio dell'host.
- A partire da LCM 2.4.0, per BIOS e firmware BMC, quando vengono soddisfatte determinate condizioni, LCM utilizza il meccanismo di aggiornamento Redfish che non richiede il riavvio dell'host.
- LCM ha un'intelligenza integrata che gli dice in quale ordine eseguire gli aggiornamenti del firmware, quindi non c'è bisogno che gli utenti si preoccupino di quali aggiornamenti eseguire per primi. Gli utenti possono semplicemente selezionare l'azione Aggiorna tutto e LCM soddisferà automaticamente tutte le dipendenze tra il firmware.
- Se vengono selezionati più host per l'esecuzione degli aggiornamenti del firmware, LCM evacuerà le VM utente dagli host una alla volta e le avvierà nell'area di staging di Phoenix per eseguire gli aggiornamenti. Nessuna VM utente verrà spenta e il carico di lavoro dovrebbe continuare a essere servito senza interruzioni.
- A seconda del firmware che stai aggiornando, potresti vedere il tuo hypervisor riavviarsi più volte in Phoenix. Questo è un comportamento previsto e non dovresti provare a intervenire.
- Una volta completati gli aggiornamenti del firmware, il nodo selezionato si riavvierà nell'hypervisor e accenderà la VM del controller locale, assicurando che tutti i servizi del cluster siano attivi e funzionanti.
- Infine, l'LCM si assicurerà che l'hypervisor locale sia nuovamente in grado di ospitare le VM degli utenti prima che l'aggiornamento prosegua sul nodo successivo.
Quanto tempo ci vuole?
Ciò dipende dal numero di aggiornamenti firmware eseguiti su un dato nodo e dal tempo impiegato per evacuare le VM utente da ciascun host. Come riferimento,
- L'aggiornamento del firmware SATA DOM (Phoenix) richiede in genere circa 45 minuti per nodo.
- Gli aggiornamenti BIOS e del firmware BMC (Phoenix) tendono a richiedere più o meno lo stesso tempo di SATA DOM.
- Gli aggiornamenti BIOS e del firmware BMC (Redfish) in genere richiedono circa 10-15 minuti.
- L'aggiornamento del firmware DISK (IVU) richiede meno tempo rispetto al meccanismo Phoenix, ma il tempo totale è proporzionale al numero di dischi da aggiornare.
Software di fondazione
L'unico prerequisito per l'aggiornamento del software Foundation è che tutti i CVM siano attivi e che il servizio Foundation sia in stato di arresto nel cluster. Questo servizio in genere non è in esecuzione a meno che non sia in corso un aggiornamento LCM o un'operazione di espansione del cluster.
Cosa succede quando clicco su Aggiorna ora ?
I binari di fondazione sono aggiornamenti su tutti i CVM. Nessun servizio in esecuzione, CVM o hypervisor viene riavviato.
Quanto tempo ci vuole?
Ci vorrà circa un minuto.
Software di controllo del cluster Nutanix (NCC)
Non ci sono prerequisiti per l'aggiornamento NCC, a parte il fatto che tutti i CVM devono essere attivi. Consulta la Guida NCC per istruzioni su come effettuare l'aggiornamento.
Cosa succede quando clicco su Aggiorna ora ?
Il nuovo software NCC viene copiato su ogni CVM e poi il servizio cluster_health, che è responsabile del monitoraggio dello stato e della logica sottostante agli avvisi del cluster, viene riavviato su ogni nodo. Nessun servizio coinvolto nel percorso dati viene riavviato.
Quanto tempo ci vuole?
Ci vorranno circa cinque minuti.
Software per file server (file Nutanix)
Installazione (o aggiornamento) dei file
Cosa succede quando clicco su Aggiorna ora ?
- Innanzitutto, verranno eseguiti i controlli pre-aggiornamento per assicurarsi che il cluster possa essere aggiornato. Se uno qualsiasi dei controlli pre-aggiornamento fallisce, verranno visualizzate informazioni in merito in Prism e l'aggiornamento effettivo del file server non verrà avviato. Gli utenti dovranno fare clic su Back to Versions e avviare nuovamente l'aggiornamento dopo che il problema segnalato dai controlli pre-aggiornamento sarà stato risolto. Per visualizzare l'elenco completo dei controlli pre-aggiornamento e i relativi articoli, consultare KB-6524 .
- Una volta iniziato l'aggiornamento del File Server, ogni VM del File Server viene aggiornata una alla volta alla nuova versione di Nutanix Files. Mentre una FSVM è inattiva per l'aggiornamento, gli utenti connessi alle condivisioni ospitate da questo nodo potrebbero subire una perdita di connettività per una durata di circa 20-30 secondi. Dopo questo breve periodo, un'altra FSVM riprenderà a ospitare quelle condivisioni e gli utenti riacquisteranno l'accesso ai propri file.
- Dopo che ogni FSVM completa il riavvio sulla nuova versione di Nutanix Files, l'aggiornamento garantirà che possa nuovamente ospitare le condivisioni prima di iniziare l'aggiornamento della FSVM successiva.
Quanto tempo ci vuole?
Circa 20 minuti per ogni VM del file server.
Informazioni aggiuntive
- Nutanix KB 6945 - Documento originale nel portale Nutanix