Comment fonctionnent les mises à niveau chez Nutanix
Comment fonctionnent les mises à niveau chez Nutanix
Comment fonctionnent les mises à niveau chez Nutanix
Description
Les mises à niveau chez Nutanix sont toujours conçues pour être effectuées sans nécessiter de temps d'arrêt pour les machines virtuelles utilisateur et leurs charges de travail. Ce document est destiné à servir d'introduction décrivant le fonctionnement de chaque type de mise à niveau et à partager certaines bonnes pratiques utiles pour les administrateurs. Vous trouverez des informations similaires dans le Guide de mise à niveau d'Acropolis (n'oubliez pas de toujours choisir le guide qui correspond à l'AOS actuellement exécuté sur votre cluster).
Versions concernées : toutes les versions, toutes les versions de fichiers Nutanix, toutes les versions de LCM, toutes les versions d'AOS, toutes les versions d'AHV
Ce qui suit est vrai pour TOUTES les mises à niveau de Nutanix :
Un temps d’arrêt est-il nécessaire ?
Non. Les machines virtuelles des utilisateurs peuvent migrer à chaud entre les hôtes en fonction du type de mise à niveau effectuée, mais cela ne devrait pas avoir d'impact sur leurs services. Les utilisateurs doivent conserver l'accès à leurs machines virtuelles et pouvoir travailler normalement pendant la mise à niveau. Les machines virtuelles qui ne peuvent pas migrer à chaud, telles que celles dotées de vGPU ou de règles d'affinité, devront être mises hors tension ou ces paramètres devront être supprimés avant toute mise à niveau nécessitant un redémarrage de l'hôte. Si vous ne le faites pas, la mise à niveau restera bloquée lors du processus d'évacuation des machines virtuelles des utilisateurs.
Y a-t-il un impact sur les performances ?
Nutanix recommande d'effectuer les mises à niveau pendant votre fenêtre de maintenance planifiée ou en dehors de vos heures d'ouverture normales. Dans le cas contraire, les utilisateurs peuvent subir une latence pendant le processus de mise à niveau. Cette latence peut être particulièrement perceptible pour les clusters qui n'utilisent que des liaisons montantes réseau à vitesse de 1 Go en raison de la bande passante limitée disponible sur cette configuration.
Quel est l’ordre de mise à niveau recommandé ?
La section Ordre de mise à niveau recommandé du guide de l'Acropole peut être référencée pour comprendre l'ordre à suivre pour les mises à niveau.
Que se passe-t-il si la mise à niveau est bloquée ?
- Si vous rencontrez un problème lors des vérifications préalables à la mise à niveau, consultez l'article cité dans Prism pour obtenir des informations sur la manière de résoudre le problème. Une fois le problème résolu, cliquez sur le lien pour revenir aux versions disponibles dans Prism, puis réessayez la mise à niveau.
- Si la mise à niveau elle-même est bloquée, contactez le support Nutanix pour obtenir de l'aide. N'essayez pas d'intervenir, car cela peut potentiellement entraîner une panne.
- Nutanix ne prend pas en charge la restauration des mises à niveau logicielles.
Comment savoir si une version est compatible ?
- Si une version apparaît dans les sections Upgrade Software ou Life Cycle Manager (LCM) de Prism, cela signifie automatiquement qu'il est déjà confirmé qu'elle est compatible avec le cluster tel qu'il est, et vous pouvez passer à la nouvelle version à tout moment.
- Si vous ne voyez pas la version que vous souhaitez dans la liste, cela peut être dû à plusieurs raisons. Les versions plus récentes prennent un certain temps avant d'être disponibles pour le téléchargement en un clic, mais vous pouvez toujours obtenir les fichiers binaires et les métadonnées directement à partir du portail Nutanix , puis les télécharger manuellement sur Prism. Il se peut également que vous deviez passer à une version intermédiaire (mise à niveau en plusieurs étapes) afin de mettre d'abord le cluster à une version capable de passer à la version souhaitée.
- La page Chemins de mise à niveau du portail Nutanix vous indique les versions d'AOS, de Prism Central (PC) ou de Nutanix Files sur lesquelles votre cluster peut être installé en ce moment, en fonction de ce que vous exécutez actuellement. Si vous devez passer à une version ultérieure à celle affichée sur la page Chemins de mise à niveau, commencez par mettre à niveau le cluster vers la dernière version possible. Une fois cette opération effectuée, vous devriez pouvoir atteindre la version souhaitée lors de votre prochaine tentative. Pour gagner du temps, n'oubliez pas qu'un cluster exécutant AOS sur une branche de version à support à long terme (LTS) (comme 5.5.x) peut toujours être mis à niveau directement vers la prochaine branche de version LTS disponible (comme 5.10.x).
- Pour voir si une version donnée d'AOS, Prism Central et Nutanix Files sont compatibles entre elles, vérifiez l' interopérabilité des produits logiciels .
Que dois-je faire à l'avance ?
- C'est toujours une bonne idea d'installer et d'exécuter la dernière version de Nutanix Cluster Check (NCC) pour vous assurer que votre cluster est dans la meilleure forme possible avant de commencer une mise à niveau.
- Pour vous assurer que Prism a accès au logiciel et au micrologiciel que vous souhaitez choisir, vérifiez les exigences en matière de port et de pare-feu et vérifiez que votre réseau est configuré en conséquence. Si vous utilisez Prism Central, assurez-vous que le port SSL 9440 est ouvert dans les deux sens entre la machine virtuelle Prism Central et tous les clusters enregistrés.
- Si votre cluster est enregistré sur Prism Central, assurez-vous que celui-ci est mis à jour avant de mettre à niveau AOS sur le cluster Prism Element. Prism Central est conçu pour gérer les clusters Prism Element qui se trouvent dans la même version majeure et des versions antérieures. Par exemple, Prism Central 5.10.0.1 est pris en charge pour gérer les clusters Prism Element exécutant 5.10.0.2 puisque la version majeure (5.10.0) est la même. Cependant, le PC 5.10.0.1 n'est pas pris en charge pour gérer les clusters PE exécutant 5.10.1 puisque cette version PE est une version majeure ultérieure. Dans de tels cas, le PC doit être mis à niveau vers la version 5.10.1 ou des versions ultérieures pour le rendre à nouveau compatible avec les clusters qu'il gère.
- Consultez les pages Chemins de mise à niveau et Matrice de compatibilité sur le portail Nutanix pour vous assurer que le nouveau logiciel est compatible. La matrice de compatibilité contient également des conseils sur la compatibilité logicielle avec les solutions partenaires Nutanix Ready et les systèmes d'exploitation invités AHV.
- Lisez les notes de version sur le portail d'assistance pour obtenir des informations sur les problèmes connus de la version, ainsi que sur les correctifs de bogues, les améliorations ou les fonctionnalités qui l'accompagnent.
- Si vous utilisez un hyperviseur ou une application tiers, vérifiez le site Web du fournisseur pour vous assurer qu'il est compatible avec la version souhaitée d'AOS.
Solution
Vous trouverez ci-dessous un résumé des conditions préalables pour chaque type de mise à niveau, de ce qui se passe sur le backend et de la durée prévue de l'opération.
Logiciel AOS
Conditions préalables à la mise à niveau
Que se passe-t-il lorsque je clique sur Mettre à niveau maintenant ?
- Tout d'abord, les vérifications préalables à la mise à niveau seront exécutées pour s'assurer que le cluster peut être mis à niveau. Si l'une des vérifications préalables à la mise à niveau échoue, vous verrez des informations à ce sujet dans Prism et la mise à niveau d'AOS ne démarrera pas. Les utilisateurs devront cliquer sur Retour aux versions et recommencer la mise à niveau une fois le problème signalé par les vérifications préalables résolu. Pour voir la liste complète des vérifications préalables et leurs articles associés, consultez l'article 6524 de la base de connaissances .
- Ensuite, le logiciel AOS est copié sur chaque CVM (Controller VM) du cluster.
- Au cours de la dernière étape, les machines virtuelles du contrôleur du cluster redémarrent une par une sur la nouvelle version d'AOS. Le trafic de stockage des machines virtuelles utilisateur sera redirigé vers une machine virtuelle de contrôle voisine pendant la mise à niveau de la machine virtuelle locale. Pendant cette courte période (environ 10 minutes), les machines virtuelles utilisateur locales peuvent subir une légère latence supplémentaire car elles reçoivent leurs E/S de stockage d'une machine virtuelle de contrôle distante.
Combien de temps cela prend-il?
Cette opération peut prendre entre 15 et 20 minutes par nœud. Le processus de mise à niveau dans un cluster à deux nœuds prendra plus de temps que le processus habituel en raison de l'étape supplémentaire de synchronisation des données lors de la transition entre l'état à un ou deux nœuds. Néanmoins, le cluster reste opérationnel pendant la mise à niveau.
Logiciel Prism Central
Que se passe-t-il lorsque je clique sur Mettre à niveau maintenant ?
- Tout d'abord, les vérifications préalables à la mise à niveau seront exécutées pour s'assurer que le cluster peut être mis à niveau. Si l'une des vérifications préalables à la mise à niveau échoue, vous verrez des informations à ce sujet dans Prism et la mise à niveau réelle ne démarrera pas. Les utilisateurs devront cliquer sur Retour aux versions et recommencer la mise à niveau une fois le problème signalé par les vérifications préalables résolu. Pour voir la liste complète des vérifications préalables et leurs articles associés, consultez l'article 6524 de la base de connaissances .
- Si vous disposez d'une machine virtuelle unique Prism Central standard, le nouveau logiciel sera mis en place, puis la machine virtuelle PC redémarrera pour accéder à la nouvelle version. Pendant cette courte période, l'interface utilisateur ne sera pas disponible, mais cela n'aura aucun effet sur les clusters Prism Element gérés par Prism Central.
- Si vous disposez d'une version Scale-Out de Prism Central (trois PCVM), le logiciel sera copié sur chaque PCVM, puis ils redémarreront un par un pour exécuter le nouveau logiciel. Les services et l'interface utilisateur de Prism Central resteront disponibles pendant la mise à niveau.
- Une fois la mise à niveau terminée, PCVM redémarre et l'interface utilisateur devient disponible après quelques minutes. Connectez-vous et assurez-vous que la tâche de mise à niveau de Prism Central a été effectuée avec succès (100 %).
Combien de temps cela prend-il?
Pour Single-VM Prism Central, environ 25 minutes.
Pour Scale-Out Prism Central (trois PCVM), environ 1 heure.
Logiciel hyperviseur
- Mise à niveau AHV
- Mise à niveau ESXi
- Mise à niveau vers Hyper-V
- KB 3123 : Politique de support de l'hyperviseur
Que se passe-t-il lorsque je clique sur Mettre à niveau maintenant ?
- Tout d'abord, les vérifications préalables à la mise à niveau seront exécutées pour s'assurer que le cluster peut être mis à niveau. Si l'une des vérifications préalables à la mise à niveau échoue, vous verrez des informations à ce sujet dans Prism et la mise à niveau réelle de l'hyperviseur ne démarrera pas. Les utilisateurs devront cliquer sur Retour aux versions et recommencer la mise à niveau une fois le problème signalé par les vérifications préalables résolu. Pour voir la liste complète des vérifications préalables et leurs articles associés, consultez l'article 6524 de la base de connaissances .
- Un hôte dans le cluster est choisi par la mise à niveau et une tâche est soumise pour migrer les machines virtuelles utilisateur à partir de l'hôte.
- Une fois que le CVM est la seule machine virtuelle restante sur l’hôte, il est placé en mode maintenance et le nouveau logiciel de l’hyperviseur est mis en scène.
- Une fois la nouvelle version de l'hyperviseur installée, un redémarrage de l'hôte est émis.
- Une fois que l'hôte revient du redémarrage vers la nouvelle version du logiciel, l'hôte sort du mode maintenance et le CVM est mis sous tension.
- Le cluster attend que la machine virtuelle du contrôleur et ses services soient en ligne avant de sélectionner l'hôte suivant pour la mise à niveau. L'hyperviseur équilibrera les machines virtuelles utilisateur sur le nœud mis à niveau selon les besoins en fonction de sa configuration existante.
Combien de temps cela prend-il?
Cela dépend du temps nécessaire pour évacuer les machines virtuelles utilisateur de chaque hôte avant qu'il ne soit arrêté pour mise à niveau. Une bonne estimation est d'environ 30 à 45 minutes par nœud.
Micrologiciel avec Life Cycle Manager (LCM)
Cette section se concentrera principalement sur les mises à jour du micrologiciel avec LCM. Cependant, vous pouvez également utiliser LCM pour mettre à niveau des logiciels comme AOS et Foundation. La mise à jour des entités logicielles avec LCM utilise les mêmes mécanismes que ceux disponibles dans la section One Click Upgrade Software de Prism. Si vous souhaitez savoir comment ils fonctionnent, veuillez vous reporter aux sections de ce document qui décrivent ces flux de travail.
Consultez l'article 7536 de la base de connaissances pour obtenir une FAQ sur cette fonctionnalité. Vous devez configurer des règles dans votre pare-feu externe pour autoriser les mises à jour LCM. Consultez le Guide de la console Web Prism : Exigences relatives au pare-feu pour plus de détails. Consultez le Guide LCM pour obtenir des informations complètes sur l'utilisation de la fonctionnalité.
La capacité de LCM à inventorier ou à mettre à jour certains composants peut dépendre des versions d'AOS et de Foundation exécutées sur le cluster. Les utilisateurs souhaitant voir une liste complète des mises à jour disponibles doivent envisager de mettre à jour ces logiciels en premier ou de consulter les notes de publication de LCM pour voir si l'une de ces dépendances existe pour votre environnement.
Que se passe-t-il lorsque je clique sur Mettre à jour ?
- Les premières vérifications préliminaires seront exécutées pour s'assurer que le cluster est en bon état pour que la mise à niveau puisse se poursuivre. Prism signalera si des vérifications préliminaires échouent et vous pouvez consulter l'article 4584 de la base de connaissances pour obtenir une explication de chacune d'entre elles et savoir comment résoudre le problème. Une fois le problème à l'origine de l'échec de la vérification préliminaire résolu, exécutez un nouvel inventaire, puis réessayez l'opération de mise à niveau.
- Fondamentalement, toutes les mises à jour du micrologiciel effectuées via LCM nécessitent que les hôtes démarrent dans une zone de préparation basée sur CentOS appelée Phoenix avec les exceptions suivantes.
- Certains modules pour les plateformes Dell.
- À partir de LCM 2.3.2, pour le micrologiciel DISK, LCM utilise un mécanisme de mise à jour basé sur IVU qui ne nécessite pas de redémarrage de l'hôte.
- À partir de LCM 2.4.0, pour BIOS et le micrologiciel BMC, lorsque certaines conditions sont remplies, LCM utilise le mécanisme de mise à jour Redfish qui ne nécessite pas de redémarrage de l'hôte.
- LCM dispose d'une intelligence intégrée qui lui indique l'ordre dans lequel effectuer les mises à jour du firmware. Les utilisateurs n'ont donc pas à se soucier des mises à jour à effectuer en premier. Les utilisateurs peuvent simplement sélectionner l'action Mettre à jour tout et LCM satisfera automatiquement toutes les dépendances entre les firmwares.
- Si plusieurs hôtes sont sélectionnés pour effectuer des mises à jour du micrologiciel, LCM évacuera les machines virtuelles utilisateur des hôtes une par une et les démarrera dans la zone de préparation de Phoenix pour effectuer les mises à jour. Aucune machine virtuelle utilisateur ne sera mise hors tension et votre charge de travail devrait continuer à être traitée sans interruption.
- En fonction du micrologiciel mis à niveau, vous pouvez voir votre hyperviseur redémarrer plusieurs fois dans Phoenix. Il s'agit d'un comportement normal et vous ne devez pas essayer d'intervenir.
- Une fois les mises à jour du micrologiciel terminées, le nœud sélectionné redémarre dans l'hyperviseur et met sous tension la machine virtuelle du contrôleur local, en s'assurant que tous les services des clusters sont opérationnels.
- Enfin, le LCM s’assurera que l’hyperviseur local peut à nouveau héberger des machines virtuelles utilisateur avant que la mise à niveau ne se poursuive sur le nœud suivant.
Combien de temps cela prend-il?
Cela dépend du nombre de mises à jour du micrologiciel effectuées sur un nœud donné et du temps nécessaire pour évacuer les machines virtuelles utilisateur de chaque hôte. À titre de référence,
- La mise à niveau du micrologiciel SATA DOM (Phoenix) prend généralement environ 45 minutes par nœud.
- Les mises à niveau BIOS et du micrologiciel BMC (Phoenix) ont tendance à prendre à peu près le même temps que SATA DOM.
- Les mises à niveau BIOS et du micrologiciel BMC (Redfish) prennent généralement environ 10 à 15 minutes.
- La mise à niveau du micrologiciel du disque (IVU) prend moins de temps que le mécanisme Phoenix, mais le temps total est proportionnel au nombre de disques mis à niveau.
Logiciel de fondation
La seule condition préalable à la mise à niveau du logiciel Foundation est que toutes les machines virtuelles de cluster (CVM) soient opérationnelles et que le service Foundation soit arrêté sur l'ensemble du cluster. Ce service n'est généralement pas en cours d'exécution, sauf si une mise à niveau de LCM ou une opération d'extension de cluster est en cours.
Que se passe-t-il lorsque je clique sur Mettre à niveau maintenant ?
Les binaires de base sont des mises à jour sur tous les CVM. Aucun service, CVM ou hyperviseur en cours d'exécution n'est redémarré.
Combien de temps cela prend-il?
Cela prend environ une minute.
Logiciel Nutanix Cluster Check (NCC)
Il n'y a aucune condition préalable pour la mise à niveau de NCC, à part que tous les CVM doivent être opérationnels. Consultez le guide NCC pour obtenir des instructions sur la mise à niveau.
Que se passe-t-il lorsque je clique sur Mettre à niveau maintenant ?
Le nouveau logiciel NCC est copié sur chaque CVM, puis le service cluster_health, qui est responsable de la surveillance de l'état et de la logique sous-jacente aux alertes de cluster, est redémarré sur chaque nœud. Aucun service impliqué dans le chemin de données n'est redémarré.
Combien de temps cela prend-il?
Cela prend environ cinq minutes.
Logiciel de serveur de fichiers (fichiers Nutanix)
Installation (ou mise à niveau) des fichiers
Que se passe-t-il lorsque je clique sur Mettre à niveau maintenant ?
- Tout d'abord, les vérifications préalables à la mise à niveau seront exécutées pour s'assurer que le cluster peut être mis à niveau. Si l'une des vérifications préalables à la mise à niveau échoue, vous verrez des informations à ce sujet dans Prism et la mise à niveau réelle du serveur de fichiers ne démarrera pas. Les utilisateurs devront cliquer sur Retour aux versions et recommencer la mise à niveau une fois le problème signalé par les vérifications préalables résolu. Pour voir la liste complète des vérifications préalables et leurs articles associés, consultez l'article KB-6524 .
- Une fois la mise à niveau du serveur de fichiers lancée, chaque machine virtuelle du serveur de fichiers est mise à niveau une par une vers la nouvelle version de Nutanix Files. Lorsqu'une machine virtuelle de fichiers est arrêtée pour la mise à niveau, les utilisateurs connectés aux partages hébergés par ce nœud peuvent subir une perte de connectivité pendant une durée d'environ 20 à 30 secondes. Après cette courte période, une autre machine virtuelle de fichiers reprendra l'hébergement de ces partages et les utilisateurs retrouveront l'accès à leurs fichiers.
- Une fois que chaque FSVM a terminé son redémarrage sur la nouvelle version de Nutanix Files, la mise à niveau garantira qu'il peut à nouveau héberger des partages avant de commencer la mise à niveau du FSVM suivant.
Combien de temps cela prend-il?
Environ 20 minutes par machine virtuelle de serveur de fichiers.
Informations Complémentaires
- Nutanix KB 6945 - Document original sur le portail Nutanix