Cómo funcionan las actualizaciones en Nutanix
Cómo funcionan las actualizaciones en Nutanix
Cómo funcionan las actualizaciones en Nutanix
Descripción
Las actualizaciones en Nutanix siempre están diseñadas para realizarse sin necesidad de tiempo de inactividad para las máquinas virtuales de los usuarios y sus cargas de trabajo. Este documento tiene como objetivo servir como introducción para describir cómo funciona cada tipo de actualización y compartir algunas prácticas recomendadas útiles para los administradores. Encontrará información similar en la Guía de actualización de Acropolis (recuerde elegir siempre la guía que coincida con el AOS que se ejecuta actualmente en su clúster).
Versiones afectadas: todas las versiones, todas las versiones de Nutanix Files, TODAS las versiones de LCM, TODAS las versiones de AOS, TODAS las versiones de AHV
Lo siguiente es válido para TODAS las actualizaciones de Nutanix:
¿Es necesario un tiempo de inactividad?
No. Las máquinas virtuales de los usuarios pueden migrar en vivo entre hosts según el tipo de actualización que se realice, pero no debería haber ningún impacto en sus servicios. Los usuarios deben mantener el acceso a sus máquinas virtuales y poder trabajar con normalidad durante la actualización. Las máquinas virtuales que no pueden migrar en vivo, como aquellas con vGPU o reglas de afinidad, deberán apagarse o se deberán eliminar estas configuraciones antes de cualquier actualización que requiera reiniciar el host. Si no se hace esto, la actualización se bloqueará en el proceso de evacuación de las máquinas virtuales de los usuarios.
¿Hay un impacto en el rendimiento?
Nutanix recomienda realizar actualizaciones durante la ventana de mantenimiento programada o fuera del horario laboral habitual; de lo contrario, los usuarios podrían experimentar latencia durante el proceso de actualización. Esta latencia puede ser especialmente notoria para los clústeres que usan enlaces ascendentes de red de solo 1 GB de velocidad debido al ancho de banda limitado disponible en esta configuración.
¿Cuál es el orden de actualización recomendado?
Se puede consultar la sección Orden de actualización recomendado de la guía de la Acrópolis para comprender el orden a seguir para las actualizaciones.
¿Qué sucede si la actualización se bloquea?
- Si encuentra un error durante las comprobaciones previas a la actualización, revise el artículo citado en Prism para obtener información sobre cómo resolver el problema. Una vez que se resuelva el problema, haga clic en el vínculo para volver a las versiones disponibles en Prism y luego intente la actualización nuevamente.
- Si la actualización se bloquea, comuníquese con el soporte técnico de Nutanix para obtener ayuda. No intente intervenir, ya que esto podría provocar una interrupción del servicio.
- Nutanix no admite la reversión de actualizaciones de software.
¿Cómo sé si una versión es compatible?
- Si aparece una versión en las secciones de Actualización de software o Administrador de ciclo de vida (LCM) de Prism, eso significa automáticamente que ya está confirmado que es compatible con el clúster tal como está y puede pasar a la nueva versión en cualquier momento.
- Si no ve la versión que desea en la lista, puede deberse a varias razones. Las versiones más nuevas tardan un tiempo en estar disponibles para la descarga con un solo clic, pero aún puede obtener los archivos binarios y de metadatos directamente desde el portal de Nutanix y luego cargarlos a Prism manualmente. También puede darse el caso de que necesite pasar a una versión intermedia (actualización de varios pasos) para llevar primero el clúster a una versión que pueda actualizarse a la versión deseada.
- La página Rutas de actualización del Portal de Nutanix le mostrará a qué versiones de AOS, Prism Central (PC) o Nutanix Files se puede incorporar su clúster en este momento en función de lo que esté ejecutando actualmente. Si necesita actualizar a una versión posterior a la que se muestra en la página Rutas de actualización, comience por actualizar el clúster a la última versión posible primero. Una vez que haya hecho eso, debería poder alcanzar la versión que desea en su próximo intento. Para ahorrar tiempo, recuerde que un clúster que ejecuta AOS en una rama de versión de soporte a largo plazo (LTS) (como 5.5.x) siempre puede actualizarse directamente a la próxima rama de versión LTS disponible (como 5.10.x).
- Para ver si una versión determinada de AOS, Prism Central y Nutanix Files son compatibles entre sí, consulte Interoperabilidad de productos de software .
¿Qué debo hacer con antelación?
- Siempre es una buena idea instalar y ejecutar la última versión de Nutanix Cluster Check (NCC) para asegurarse de que su clúster esté en las mejores condiciones posibles antes de comenzar una actualización.
- Para garantizar que Prism tenga acceso al software y firmware que desea elegir, revise los requisitos de puerto y firewall y verifique que su red esté configurada de acuerdo con ellos. Si está utilizando Prism Central, asegúrese de que el puerto SSL 9440 esté abierto en ambas direcciones entre la máquina virtual Prism Central y cualquier clúster registrado.
- Si su clúster está registrado en Prism Central, asegúrese de que esté actualizado antes de actualizar AOS en el clúster Prism Element. Prism Central está diseñado para administrar clústeres Prism Element que se encuentran dentro de la misma compilación principal y versiones anteriores. Por ejemplo, Prism Central 5.10.0.1 es compatible para administrar clústeres Prism Element que ejecutan 5.10.0.2, ya que la compilación principal (5.10.0) es la misma. Sin embargo, la PC 5.10.0.1 no es compatible para administrar clústeres PE que ejecutan 5.10.1, ya que esta versión PE es una compilación principal posterior. En tales casos, la PC debe actualizarse a 5.10.1 o compilaciones posteriores para que vuelva a ser compatible con los clústeres que administra.
- Consulte las páginas de Rutas de actualización y Matriz de compatibilidad en el Portal de Nutanix para asegurarse de que el nuevo software sea compatible. La Matriz de compatibilidad también contiene orientación sobre la compatibilidad del software con las soluciones Nutanix Ready Partner y los sistemas operativos invitados AHV.
- Lea las Notas de la versión en el Portal de soporte para obtener información sobre los problemas conocidos en la versión, así como también qué correcciones de errores, mejoras o características vienen con ella.
- Si está utilizando un hipervisor o una aplicación de terceros, consulte el sitio web del proveedor para asegurarse de que sea compatible con la versión deseada de AOS.
Solución
A continuación encontrará un resumen de los requisitos previos para cada tipo de actualización, qué sucede en el backend y cuánto tiempo se puede esperar que tome la operación.
Software AOS
Requisitos previos de actualización
¿Qué sucede cuando hago clic en Actualizar ahora ?
- En primer lugar, se ejecutarán las comprobaciones previas a la actualización para asegurarse de que el clúster se pueda actualizar. Si alguna de las comprobaciones previas a la actualización falla, verá información al respecto en Prism y la actualización real de AOS no comenzará. Los usuarios tendrán que hacer clic en Volver a versiones e iniciar la actualización nuevamente después de que se resuelva el problema informado por las comprobaciones previas. Para ver la lista completa de comprobaciones previas y sus artículos relacionados, consulte el artículo KB 6524 .
- A continuación, el software AOS se copia en cada CVM (VM controladora) del clúster.
- En la última etapa, las máquinas virtuales del controlador en el clúster se reinician una a la vez en la nueva versión de AOS. El tráfico de almacenamiento de las máquinas virtuales de usuario se redirigirá a una CVM vecina mientras se actualiza la local. Durante este breve período (aproximadamente 10 minutos), las máquinas virtuales de usuario locales pueden experimentar una pequeña cantidad de latencia adicional, ya que reciben su E/S de almacenamiento de una CVM remota.
¿Cuánto tiempo se tarda?
Esto puede tardar entre 15 y 20 minutos por nodo. El proceso de actualización en un clúster de dos nodos llevará más tiempo que el proceso habitual debido al paso adicional de sincronización de datos durante la transición entre el estado de un solo nodo y el de dos nodos. No obstante, el clúster sigue funcionando durante la actualización.
Software central de Prisma
Descripción general y requisitos
¿Qué sucede cuando hago clic en Actualizar ahora ?
- En primer lugar, se ejecutarán las comprobaciones previas a la actualización para asegurarse de que el clúster se pueda actualizar. Si alguna de las comprobaciones previas a la actualización falla, verá información al respecto en Prism y la actualización real no comenzará. Los usuarios tendrán que hacer clic en Volver a versiones y comenzar la actualización nuevamente después de que se resuelva el problema informado por las comprobaciones previas. Para ver la lista completa de comprobaciones previas y sus artículos relacionados, consulte el artículo KB 6524 .
- Si tiene un Prism Central de una sola máquina virtual (PCVM) normal, se instalará el nuevo software y luego el PCVM se reiniciará para instalar la nueva versión. Durante este breve período, la interfaz de usuario no estará disponible, pero no se producirá ningún efecto en los clústeres de Prism Element que administra Prism Central.
- Si tiene un Prism Central escalable (tres PCVM), el software se copiará en cada PCVM y luego se reiniciarán de a una por vez para ejecutar el nuevo software. Los servicios y la interfaz de usuario de Prism Central seguirán estando disponibles durante la actualización.
- Una vez que PCVM se inicia tras la actualización, la interfaz de usuario tardará unos minutos en estar disponible. Inicie sesión y asegúrese de que la tarea de actualización de Prism Central se haya completado correctamente (100 %).
¿Cuánto tiempo se tarda?
Para Prism Central de una sola máquina virtual, aproximadamente 25 minutos.
Para Scale-Out Prism Central (tres PCVM), aproximadamente 1 hora.
Software de hipervisor
- Actualización de AHV
- Actualización de ESXi
- Actualización de Hyper-V
- KB 3123: Política de compatibilidad con hipervisores
¿Qué sucede cuando hago clic en Actualizar ahora ?
- En primer lugar, se ejecutarán las comprobaciones previas a la actualización para asegurarse de que el clúster se pueda actualizar. Si alguna de las comprobaciones previas a la actualización falla, verá información al respecto en Prism y la actualización real del hipervisor no se iniciará. Los usuarios tendrán que hacer clic en Volver a versiones e iniciar la actualización nuevamente después de que se resuelva el problema informado por las comprobaciones previas. Para ver la lista completa de comprobaciones previas y sus artículos relacionados, consulte el artículo KB 6524 .
- La actualización elige un host del clúster y se envía una tarea para migrar las máquinas virtuales de usuario desde el host.
- Una vez que la CVM es la única máquina virtual que queda en el host, se coloca en modo de mantenimiento y se prepara el nuevo software para el hipervisor.
- Después de instalar la nueva versión del hipervisor, se emite un reinicio del host.
- Una vez que el host sale del reinicio a la nueva versión de software, el host sale del modo de mantenimiento y se enciende el CVM.
- El clúster esperará a que la máquina virtual del controlador y sus servicios se conecten antes de seleccionar el próximo host que se someterá a la actualización. El hipervisor equilibrará las máquinas virtuales de usuario en el nodo actualizado según sea necesario en función de su configuración existente.
¿Cuánto tiempo se tarda?
Esto depende de cuánto tiempo se tarda en evacuar las máquinas virtuales de los usuarios de cada host antes de que deje de funcionar para realizar una actualización. Una buena estimación es de entre 30 y 45 minutos por nodo.
Firmware con administrador de ciclo de vida (LCM)
Esta sección se centrará principalmente en las actualizaciones de firmware con LCM; sin embargo, también puede utilizar LCM para actualizar software como AOS y Foundation. La actualización de entidades de software con LCM utiliza los mismos mecanismos que estaban disponibles en la sección anterior One Click Upgrade Software de Prism. Si le interesa saber cómo funcionan, consulte las secciones de este documento que describen esos flujos de trabajo.
Consulte KB 7536 para ver las preguntas frecuentes sobre esta función. Debe configurar reglas en su firewall externo para permitir actualizaciones de LCM. Consulte la Guía de Prism Web Console: Requisitos de firewall para obtener más información. Consulte la Guía de LCM para obtener detalles completos sobre el uso de esta función.
La capacidad de LCM para inventariar o actualizar determinados componentes puede depender de qué versiones de AOS y Foundation se estén ejecutando en el clúster. Los usuarios que deseen ver una lista completa de las actualizaciones disponibles deben considerar actualizar este software primero o consultar las Notas de la versión de LCM para ver si existe alguna de estas dependencias para su entorno.
¿Qué sucede cuando hago clic en Actualizar ?
- Primero se ejecutarán comprobaciones previas para asegurarse de que el clúster esté en buen estado para que se realice la actualización. Prism informará si alguna comprobación previa falla y puede consultar KB 4584 para obtener una explicación de cada una de ellas y cómo resolver el problema. Una vez que se resuelva el problema que provocó que la comprobación previa fallara, ejecute un nuevo inventario y luego intente la operación de actualización nuevamente.
- Básicamente, todas las actualizaciones de firmware realizadas a través de LCM requieren que los hosts inicien en un área de almacenamiento basada en CentOS llamada Phoenix con las siguientes excepciones.
- Ciertos módulos para plataformas Dell.
- A partir de LCM 2.3.2, para el firmware DISK, LCM utiliza un mecanismo de actualización basado en IVU que no requiere reiniciar el host.
- LCM 2.4.0 en adelante, para BIOS y firmware BMC, cuando se cumplen ciertas condiciones, LCM utiliza el mecanismo de actualización Redfish que no requiere reiniciar el host.
- LCM tiene una inteligencia incorporada que le indica en qué orden realizar las actualizaciones de firmware, por lo que los usuarios no tienen que preocuparse por qué actualizaciones realizar primero. Los usuarios pueden simplemente seleccionar la acción Actualizar todo y LCM satisfará automáticamente todas las dependencias entre el firmware.
- Si se seleccionan varios hosts para realizar actualizaciones de firmware, LCM evacuará las máquinas virtuales de usuario de los hosts de a una por vez y las iniciará en el área de ensayo de Phoenix para realizar las actualizaciones. No se apagará ninguna máquina virtual de usuario y su carga de trabajo debería seguir funcionando sin interrupciones.
- Según el firmware que se esté actualizando, es posible que vea que el hipervisor se reinicia varias veces y vuelve a Phoenix. Este es el comportamiento esperado y no debe intentar intervenir.
- Una vez que se completen las actualizaciones de firmware, el nodo seleccionado se reiniciará en el hipervisor y encenderá la máquina virtual del controlador local, asegurándose de que todos los servicios del clúster estén en funcionamiento.
- Por último, el LCM se asegurará de que el hipervisor local pueda volver a alojar las máquinas virtuales del usuario antes de que la actualización continúe en el siguiente nodo.
¿Cuánto tiempo se tarda?
Esto depende de la cantidad de actualizaciones de firmware que se realizan en un nodo determinado y de cuánto tiempo lleva evacuar las máquinas virtuales de usuario de cada host. Como referencia,
- La actualización del firmware SATA DOM (Phoenix) tiende a tardar unos 45 minutos por nodo.
- Las actualizaciones de firmware BIOS y BMC (Phoenix) tienden a tomar aproximadamente el mismo tiempo que SATA DOM.
- Las actualizaciones de firmware BIOS y BMC (Redfish) suelen tardar entre 10 y 15 minutos.
- La actualización del firmware de DISK (IVU) toma menos tiempo en comparación con el mecanismo Phoenix, pero el tiempo total es proporcional a la cantidad de discos que se actualizan.
Software de base
El único requisito previo para la actualización del software de Foundation es que todos los CVM estén activos y que el servicio de Foundation esté detenido en todo el clúster. Este servicio normalmente no se ejecuta a menos que se esté realizando una actualización de LCM o una operación de expansión del clúster.
¿Qué sucede cuando hago clic en Actualizar ahora ?
Los archivos binarios básicos son actualizaciones en todos los CVM. No se reinician servicios, CVM ni hipervisores en ejecución.
¿Cuánto tiempo se tarda?
Esto tarda aproximadamente un minuto.
Software de verificación de clústeres de Nutanix (NCC)
No existen requisitos previos para la actualización de NCC, salvo que todos los CVM deben estar en funcionamiento. Consulta la Guía de NCC para obtener instrucciones sobre cómo realizar la actualización.
¿Qué sucede cuando hago clic en Actualizar ahora ?
El nuevo software NCC se copia en cada CVM y luego el servicio cluster_health, que es responsable de la supervisión del estado y de la lógica subyacente a las alertas del clúster, se reinicia en cada nodo. No se reinicia ningún servicio involucrado en la ruta de datos.
¿Cuánto tiempo se tarda?
Esto tarda unos cinco minutos.
Software de servidor de archivos (archivos Nutanix)
Instalación (o actualización) de archivos
¿Qué sucede cuando hago clic en Actualizar ahora ?
- En primer lugar, se ejecutarán las comprobaciones previas a la actualización para asegurarse de que el clúster se pueda actualizar. Si alguna de las comprobaciones previas a la actualización falla, verá información al respecto en Prism y la actualización real del servidor de archivos no se iniciará. Los usuarios tendrán que hacer clic en Volver a versiones e iniciar la actualización nuevamente después de que se resuelva el problema informado por las comprobaciones previas. Para ver la lista completa de comprobaciones previas y sus artículos relacionados, consulte KB-6524 .
- Una vez que comienza la actualización del servidor de archivos, cada máquina virtual del servidor de archivos se actualiza de a una a la vez con la nueva versión de Nutanix Files. Mientras un servidor de archivos está inactivo durante la actualización, los usuarios conectados a los recursos compartidos alojados por este nodo pueden experimentar una pérdida de conectividad durante aproximadamente 20 a 30 segundos. Después de este breve período, otro servidor de archivos retomará el alojamiento de esos recursos compartidos y los usuarios recuperarán el acceso a sus archivos.
- Después de que cada FSVM complete su reinicio en la nueva versión de Nutanix Files, la actualización se asegurará de que pueda volver a alojar recursos compartidos antes de comenzar a actualizar el siguiente FSVM.
¿Cuánto tiempo se tarda?
Aproximadamente 20 minutos por cada máquina virtual del servidor de archivos.
información adicional
- Nutanix KB 6945 : documento original en el portal de Nutanix