Como funcionam as atualizações na Nutanix

Como funcionam as atualizações na Nutanix

Como funcionam as atualizações na Nutanix

Este é um artigo traduzido automaticamente, por favor clique aqui para ver a versão original em inglês.

Descrição

Os upgrades na Nutanix são sempre projetados para serem feitos sem a necessidade de qualquer tempo de inatividade para VMs de usuário e suas cargas de trabalho. Este documento tem a intenção de servir como uma introdução descrevendo como cada tipo de upgrade funciona e compartilhar algumas práticas recomendadas úteis para administradores. Você encontrará informações semelhantes no Acropolis Upgrade Guide (lembre-se de sempre escolher o guia que corresponde ao AOS atualmente em execução no seu cluster).

Versões afetadas: Todas as versões, Todas as versões de arquivos Nutanix, TODAS as versões LCM, TODAS as versões AOS, TODAS as versões AHV
O seguinte é verdadeiro para TODAS as atualizações do Nutanix:

É necessário tempo de inatividade?

Não. As VMs de usuário podem migrar ao vivo entre hosts dependendo do tipo de atualização realizada, mas não deve haver impacto em seus serviços. Os usuários devem manter o acesso às suas VMs e conseguir trabalhar normalmente durante a atualização. As VMs que não podem migrar ao vivo, como aquelas com vGPUs ou Affinity Rules, precisarão ser desligadas ou ter essas configurações removidas antes de qualquer atualização que exija uma reinicialização do host. Não fazer isso resultará na atualização travada no processo de evacuação das VMs de usuário.

Há algum impacto no desempenho?

A Nutanix recomenda executar atualizações durante sua janela de manutenção programada ou fora do seu horário comercial normal; caso contrário, os usuários podem experimentar latência durante o processo de atualização. Essa latência pode ser especialmente perceptível para clusters que usam apenas uplinks de rede de velocidade de 1 GB devido à largura de banda limitada disponível nessa configuração.

Qual é a ordem de atualização recomendada?

A seção Ordem de atualização recomendada do guia da Acrópole pode ser consultada para entender a ordem a ser seguida para as atualizações.

O que acontece se a atualização travar?

  • Se você encontrar uma falha durante as verificações de pré-atualização, revise o artigo citado no Prism para obter informações sobre como resolver o problema. Assim que o problema for resolvido, clique no link para voltar às versões disponíveis no Prism e tente a atualização novamente.
  • Se a atualização em si estiver travada, entre em contato com o Suporte Nutanix para obter assistência. Não tente intervir, pois isso pode resultar em uma interrupção.
  • A Nutanix não oferece suporte para reversão de atualizações de software.

Como sei se uma versão é compatível?

  • Se uma versão aparecer nas seções Upgrade Software ou Life Cycle Manager (LCM) do Prism, isso significa automaticamente que ela já está confirmada como compatível com o cluster atual, e você pode ir para a nova versão a qualquer momento.
  • Se você não vir a versão que deseja listada, pode ser por vários motivos. Lançamentos mais recentes levam algum tempo antes de serem disponibilizados para Download com Um Clique, mas você ainda pode obter os binários e arquivos de metadados diretamente do Portal Nutanix e então carregá-los no Prism manualmente. Também pode ser o caso de você precisar ir para uma versão intermediária (atualização em várias etapas) para primeiro levar o cluster para uma versão que seja capaz de atualizar para a versão desejada.
  • A página Upgrade Paths no Nutanix Portal mostrará para quais versões do AOS, Prism Central (PC) ou Nutanix Files seu cluster pode ser trazido agora com base no que você está executando no momento. Se você precisar ir para uma versão posterior à mostrada na página Upgrade Paths, comece atualizando o cluster para a versão mais recente possível primeiro. Depois que isso for feito, você deverá conseguir alcançar a versão que deseja na sua próxima tentativa. Para economizar tempo, lembre-se de que um cluster executando o AOS em uma ramificação de versão Long-Term Support (LTS) (como 5.5.x) sempre pode atualizar diretamente para a próxima ramificação de versão LTS disponível (como 5.10.x).
  • Para verificar se uma determinada versão do AOS, Prism Central e Nutanix Files são compatíveis entre si, verifique a Interoperabilidade do Produto de Software .

O que devo fazer com antecedência?

  • É sempre uma boa idea instalar e executar a versão mais recente do Nutanix Cluster Check (NCC) para garantir que seu cluster esteja na melhor forma possível antes de iniciar uma atualização.
  • Para garantir que o Prism tenha acesso ao software e firmware que você deseja escolher, revise os requisitos de porta e firewall e verifique se sua rede está configurada adequadamente. Se você estiver usando o Prism Central, certifique-se de que a porta SSL 9440 esteja aberta em ambas as direções entre a VM do Prism Central e quaisquer clusters registrados.
  • Se seu cluster estiver registrado no Prism Central, certifique-se de que ele esteja atualizado antes de atualizar o AOS no cluster Prism Element. O Prism Central foi projetado para gerenciar clusters Prism Element que estão na mesma compilação principal e versões anteriores. Por exemplo, o Prism Central 5.10.0.1 é suportado para gerenciar clusters Prism Element executando 5.10.0.2, pois a compilação principal (5.10.0) é a mesma. No entanto, o PC 5.10.0.1 não é suportado para gerenciar clusters PE executando 5.10.1, pois esta versão PE é uma compilação principal posterior. Nesses casos, o PC deve ser atualizado para 5.10.1 ou compilações posteriores para trazê-lo de volta à compatibilidade com os clusters que ele gerencia.
  • Verifique as páginas Upgrade Paths e Compatibility Matrix no Nutanix Portal para certificar-se de que o novo software é compatível. A Compatibility Matrix também contém orientação sobre compatibilidade de software com Nutanix Ready Partner Solutions e AHV Guest Operating Systems.
  • Leia as Notas de Versão no Portal de Suporte para obter informações sobre problemas conhecidos na versão, bem como correções de bugs, melhorias ou recursos que a acompanham.
  • Se você estiver usando um hipervisor ou aplicativo de terceiros, verifique o site do fornecedor para ter certeza de que ele é compatível com a versão desejada do AOS.

Solução

Abaixo você encontrará um resumo dos pré-requisitos para cada tipo de atualização, o que acontece no backend e quanto tempo a operação pode levar.

Software AOS

Pré-requisitos de atualização

O que acontece quando clico em Atualizar agora ?

  • Primeiro, as verificações de pré-atualização serão executadas para garantir que o cluster possa ser atualizado. Se alguma das verificações de pré-atualização falhar, você verá informações sobre isso no Prism e a atualização real do AOS não será iniciada. Os usuários terão que clicar em Voltar para Versões e iniciar a atualização novamente após o problema relatado pelas verificações prévias ser resolvido. Para ver a lista completa de verificações prévias e seus artigos relacionados, confira KB 6524 .
  • Em seguida, o software AOS é copiado para cada CVM (VM do controlador) no cluster.
  • No último estágio, as VMs do Controlador no cluster reiniciam uma de cada vez na nova versão do AOS. O tráfego de armazenamento das VMs do Usuário será redirecionado para uma CVM vizinha enquanto a local estiver sendo atualizada. Durante esse curto período (cerca de 10 minutos), as VMs do Usuário locais podem experimentar uma pequena quantidade de latência adicional, pois estão recebendo sua E/S de armazenamento de uma CVM remota.

Quanto tempo leva?

Isso pode levar de 15 a 20 minutos por nó. O processo de atualização em um cluster de dois nós levará mais tempo do que o processo usual devido à etapa adicional de sincronização de dados durante a transição entre o estado de nó único e de dois nós. No entanto, o cluster permanece operacional durante a atualização.

Software Prism Central

Visão geral e requisitos

O que acontece quando clico em Atualizar agora ?

  • Primeiro, as verificações de pré-atualização serão executadas para garantir que o cluster possa ser atualizado. Se alguma das verificações de pré-atualização falhar, você verá informações sobre isso no Prism e a atualização real não será iniciada. Os usuários terão que clicar em Voltar para Versões e iniciar a atualização novamente após o problema relatado pelas verificações prévias ser resolvido. Para ver a lista completa de verificações prévias e seus artigos relacionados, confira KB 6524 .
  • Se você tiver um Prism Central Single-VM regular, o novo software será preparado e então o PCVM será reiniciado para chegar à nova versão. Durante esse curto período, a UI não estará disponível, mas não haverá efeito nos clusters Prism Element que são gerenciados pelo Prism Central.
  • Se você tiver um Scale-Out Prism Central (três PCVMs), o software será copiado para cada PCVM e, em seguida, eles serão reiniciados um de cada vez para aparecer no novo software. Os serviços e a IU do Prism Central ainda estarão disponíveis durante a atualização.
  • Após o PCVM inicializar a partir da atualização, levará alguns minutos para que a UI fique disponível. Faça login e certifique-se de que a tarefa para a atualização do Prism Central foi concluída com sucesso (100%).

Quanto tempo leva?

Para o Prism Central de VM única, cerca de 25 minutos.
Para o Scale-Out Prism Central (três PCVMs), cerca de 1 hora.

Software de hipervisor

O que acontece quando clico em Atualizar agora ?

  • Primeiro, as verificações de pré-atualização serão executadas para garantir que o cluster possa ser atualizado. Se alguma das verificações de pré-atualização falhar, você verá informações sobre isso no Prism e a atualização real do hipervisor não será iniciada. Os usuários terão que clicar em Voltar para Versões e iniciar a atualização novamente após o problema relatado pelas verificações prévias ser resolvido. Para ver a lista completa de verificações prévias e seus artigos relacionados, confira KB 6524 .
  • Um host no cluster é escolhido pela atualização e uma tarefa é enviada para migrar VMs de usuário do host.
  • Quando a CVM é a única máquina virtual restante no host, ela é colocada no Modo de Manutenção e o novo software para o hipervisor é preparado.
  • Após a instalação da nova versão do hipervisor, uma reinicialização do host é emitida.
  • Assim que o host sai da reinicialização para a nova versão do software, ele sai do Modo de Manutenção e o CVM é ligado.
  • O cluster aguardará que a VM do Controlador e seus serviços fiquem online antes de selecionar o próximo host a ser submetido à atualização. O hipervisor equilibrará as VMs do Usuário no nó atualizado conforme necessário com base em sua configuração existente.

Quanto tempo leva?

Isso depende de quanto tempo leva para evacuar VMs de Usuário de cada host antes que ele fique inativo para atualização. Uma boa estimativa é de cerca de 30-45 minutos por nó.

Firmware com Life Cycle Manager (LCM)

Esta seção se concentrará principalmente em atualizações de firmware com LCM; no entanto, você também pode usar LCM para atualizar software como AOS e Foundation. Atualizar entidades de software com LCM utiliza os mesmos mecanismos que estavam disponíveis na seção One Click Upgrade Software legada do Prism. Se você estiver interessado em como isso funciona, consulte as seções deste documento que descrevem esses fluxos de trabalho.

Veja KB 7536 para um FAQ sobre esse recurso. Você deve configurar regras no seu firewall externo para permitir atualizações do LCM. Veja o Prism Web Console Guide: Firewall Requirements para detalhes. Consulte o LCM Guide para detalhes completos sobre como usar o recurso.

A capacidade do LCM de inventariar ou atualizar certos componentes pode depender de quais versões do AOS e do Foundation estão em execução no cluster. Usuários que desejam ver uma lista completa de atualizações disponíveis devem considerar atualizar esses softwares primeiro ou verificar as Notas de versão do LCM para ver se alguma dessas dependências existe para seu ambiente.

O que acontece quando clico em Atualizar ?

  • As primeiras pré-verificações serão executadas para garantir que o cluster esteja em um bom estado para que a atualização prossiga. O Prism relatará se alguma pré-verificação falhar e você pode consultar o KB 4584 para obter uma explicação de cada uma delas e como resolver o problema. Assim que o problema que causou a falha da pré-verificação for resolvido, execute um novo Inventário e tente a operação de atualização novamente.
  • Basicamente, todas as atualizações de firmware realizadas por meio do LCM exigem que os hosts inicializem em uma área de preparação baseada no CentOS chamada Phoenix, com as seguintes exceções.
    • Certos módulos para plataformas Dell.
    • A partir do LCM 2.3.2, para firmware DISK, o LCM utiliza um mecanismo de atualização baseado em IVU que não requer reinicialização do host.
    • A partir do LCM 2.4.0, para firmware BIOS e BMC, quando certas condições são atendidas, o LCM utiliza o mecanismo de atualização Redfish que não requer reinicialização do host.
  • O LCM tem inteligência interna que informa a ordem de fazer as atualizações de firmware, então não há necessidade de os usuários se preocuparem com quais atualizações executar primeiro. Os usuários podem simplesmente selecionar a ação Atualizar tudo e o LCM satisfará automaticamente todas as dependências entre o firmware.
  • Se vários hosts forem selecionados para ter atualizações de firmware executadas, o LCM evacuará as VMs de usuário dos hosts uma de cada vez e as inicializará na área de preparação do Phoenix para executar as atualizações. Nenhuma VM de usuário será desligada e sua carga de trabalho deve continuar a ser atendida sem interrupção.
  • Dependendo do firmware que está sendo atualizado, você pode ver seu hypervisor reinicializar várias vezes de volta para o Phoenix. Esse é um comportamento esperado e você não deve tentar intervir.
  • Assim que as atualizações de firmware forem concluídas, o nó selecionado será inicializado novamente no hipervisor e ligará a VM do controlador local, garantindo que todos os serviços do cluster estejam ativos e em execução.
  • Por fim, o LCM garantirá que o hipervisor local possa hospedar novamente as VMs do usuário antes que a atualização continue para o próximo nó.

Quanto tempo leva?

Isso depende do número de atualizações de firmware sendo executadas em um determinado nó e de quanto tempo leva para evacuar VMs de usuário de cada host. Como referência,

  • A atualização do firmware SATA DOM (Phoenix) tende a levar cerca de 45 minutos por nó.
  • As atualizações de firmware BIOS e BMC (Phoenix) tendem a levar aproximadamente o mesmo tempo que o SATA DOM.
  • As atualizações de firmware BIOS e do BMC (Redfish) tendem a levar de 10 a 15 minutos.
  • A atualização do firmware do DISCO (IVU) leva menos tempo em comparação ao mecanismo Phoenix, mas o tempo total é proporcional ao número de discos que estão sendo atualizados.

Software de fundação

O único pré-requisito para a atualização do software Foundation é que todos os CVMs estejam ativos e que o serviço Foundation esteja em um estado parado no cluster. Esse serviço normalmente não está em execução, a menos que uma atualização do LCM ou uma operação Cluster Expand esteja ocorrendo.

O que acontece quando clico em Atualizar agora ?

Os binários de fundação são atualizações em todos os CVMs. Nenhum serviço em execução, CVMs ou hypervisors são reiniciados.

Quanto tempo leva?

Isso leva cerca de um minuto.

Software Nutanix Cluster Check (NCC)

Não há pré-requisitos para a atualização do NCC além de que todos os CVMs devem estar ativos. Confira o Guia do NCC para obter instruções sobre como atualizar.

O que acontece quando clico em Atualizar agora ?

O novo software NCC é copiado para cada CVM e, em seguida, o serviço cluster_health, que é responsável pelo monitoramento de integridade e pela lógica subjacente aos alertas de cluster, é reiniciado em cada nó. Nenhum serviço envolvido no caminho de dados é reiniciado.

Quanto tempo leva?

Isso leva cerca de cinco minutos.

Software de servidor de arquivos (Nutanix Files)

Instalando (ou atualizando) arquivos

O que acontece quando clico em Atualizar agora ?

  • Primeiro, as verificações de pré-atualização serão executadas para garantir que o cluster possa ser atualizado. Se alguma das verificações de pré-atualização falhar, você verá informações sobre isso no Prism e a atualização real do File Server não será iniciada. Os usuários terão que clicar em Voltar para Versões e iniciar a atualização novamente após o problema relatado pelas verificações prévias ser resolvido. Para ver a lista completa de verificações prévias e seus artigos relacionados, confira KB-6524 .
  • Assim que a atualização do File Server começar, cada VM do File Server será atualizada uma de cada vez para a nova versão do Nutanix Files. Enquanto uma FSVM estiver inativa para a atualização, os usuários conectados aos compartilhamentos hospedados por este nó podem sofrer uma perda de conectividade por uma duração de aproximadamente 20-30 segundos. Após esse curto período, outra FSVM assumirá a hospedagem desses compartilhamentos, e os usuários recuperarão o acesso aos seus arquivos.
  • Após cada FSVM concluir sua reinicialização na nova versão do Nutanix Files, a atualização garantirá que ele possa hospedar compartilhamentos novamente antes de iniciar a atualização do próximo FSVM.

Quanto tempo leva?

Cerca de 20 minutos por VM do servidor de arquivos.

Informações adicionais

ID do documento:HT514179
Data de publicação original:09/08/2022
Data da última modificação:09/02/2024