Jak działają aktualizacje w Nutanix
Jak działają aktualizacje w Nutanix
Jak działają aktualizacje w Nutanix
Opis
Aktualizacje w Nutanix są zawsze projektowane tak, aby były wykonywane bez konieczności przestoju maszyn wirtualnych użytkowników i ich obciążeń. Niniejszy dokument ma służyć jako wprowadzenie opisujące, jak działa każdy typ aktualizacji, oraz udostępniać administratorom przydatne najlepsze praktyki. Podobne informacje znajdziesz w Acropolis Upgrade Guide (pamiętaj, aby zawsze wybierać przewodnik odpowiadający systemowi AOS aktualnie działającemu w klastrze).
Dotyczy wersji: Wszystkie wersje, Wszystkie wersje plików Nutanix, WSZYSTKIE wersje LCM, WSZYSTKIE wersje AOS, WSZYSTKIE wersje AHV
Poniższe zasady dotyczą WSZYSTKICH aktualizacji Nutanix:
Czy przestój jest konieczny?
Nie. Maszyny wirtualne użytkowników mogą migrować na żywo między hostami w zależności od rodzaju przeprowadzanej aktualizacji, ale nie powinno to mieć wpływu na ich usługi. Użytkownicy powinni zachować dostęp do swoich maszyn wirtualnych i móc pracować normalnie podczas aktualizacji. Maszyny wirtualne, które nie mogą migrować na żywo, takie jak te z vGPU lub Affinity Rules, będą musiały zostać wyłączone lub usunięte te ustawienia przed jakąkolwiek aktualizacją wymagającą ponownego uruchomienia hosta. Niewykonanie tego spowoduje, że aktualizacja utknęła w procesie ewakuacji maszyn wirtualnych użytkowników.
Czy ma to wpływ na wydajność?
Nutanix zaleca przeprowadzanie uaktualnień w trakcie zaplanowanego okna konserwacji lub poza normalnymi godzinami pracy; w przeciwnym razie użytkownicy mogą doświadczyć opóźnień podczas procesu uaktualniania. Opóźnienie to może być szczególnie zauważalne w przypadku klastrów, które używają tylko łączy sieciowych o szybkości 1 GB ze względu na ograniczoną przepustowość dostępną w tej konfiguracji.
Jaka jest zalecana kolejność uaktualnień?
Aby dowiedzieć się, jaka kolejność aktualizacji jest właściwa, zapoznaj się z sekcją „Zalecana kolejność aktualizacji” w przewodniku po Akropolu.
Co się stanie, jeśli aktualizacja utknie?
- Jeśli napotkasz błąd podczas kontroli przed uaktualnieniem, zapoznaj się z artykułem cytowanym w Prism, aby uzyskać informacje o tym, jak rozwiązać problem. Po rozwiązaniu problemu kliknij łącze, aby powrócić do dostępnych wersji w Prism, a następnie spróbuj ponownie wykonać uaktualnienie.
- Jeśli samo uaktualnienie utkwiło, skontaktuj się z pomocą techniczną Nutanix, aby uzyskać pomoc. Nie próbuj interweniować , ponieważ może to potencjalnie spowodować przerwę w działaniu.
- Nutanix nie obsługuje funkcji wycofywania aktualizacji oprogramowania.
Jak mogę sprawdzić, czy wersja jest kompatybilna?
- Jeśli dana wersja pojawia się w sekcjach Upgrade Software lub Life Cycle Manager (LCM) programu Prism, oznacza to automatycznie, że potwierdzono już jej zgodność z klastrem w obecnej postaci i w każdej chwili można przejść do nowej wersji.
- Jeśli nie widzisz wersji, której szukasz, może to mieć miejsce z kilku powodów. Nowsze wersje potrzebują trochę czasu, zanim zostaną udostępnione do pobrania za pomocą jednego kliknięcia, ale nadal możesz pobrać pliki binarne i metadane bezpośrednio z portalu Nutanix , a następnie przesłać je ręcznie do Prism. Może się również zdarzyć, że musisz przejść do wersji pośredniej (aktualizacja wieloetapowa), aby najpierw doprowadzić klaster do wersji, która jest w stanie uaktualnić się do żądanej wersji.
- Strona Ścieżki aktualizacji w portalu Nutanix pokaże Ci, jakie wersje AOS, Prism Central (PC) lub Nutanix Files możesz teraz przenieść do swojego klastra, w zależności od tego, co aktualnie uruchamiasz. Jeśli musisz przejść do nowszej wersji niż ta, która jest wyświetlana na stronie Ścieżki aktualizacji, zacznij od uaktualnienia klastra do najnowszej możliwej wersji. Po wykonaniu tej czynności powinieneś być w stanie osiągnąć wersję, której chcesz, przy następnej próbie. Aby zaoszczędzić czas, pamiętaj, że klaster uruchamiający AOS w gałęzi wydania Long-Term Support (LTS) (takiej jak 5.5.x) zawsze może uaktualnić się bezpośrednio do następnej dostępnej gałęzi wydania LTS (takiej jak 5.10.x).
- Aby sprawdzić, czy dana wersja AOS, Prism Central i plików Nutanix jest ze sobą zgodna, należy sprawdzić zgodność oprogramowania z innymi wersjami.
Co powinienem zrobić wcześniej?
- Zawsze idea zainstalować i uruchomić najnowszą wersję narzędzia Nutanix Cluster Check (NCC), aby mieć pewność, że klaster jest w jak najlepszym stanie, zanim rozpoczniesz aktualizację.
- Aby upewnić się, że Prism ma dostęp do oprogramowania i oprogramowania sprzętowego, które chcesz wybrać, sprawdź wymagania dotyczące portu i zapory sieciowej i sprawdź, czy sieć jest odpowiednio skonfigurowana. Jeśli używasz Prism Central, upewnij się, że port SSL 9440 jest otwarty w obu kierunkach między maszyną wirtualną Prism Central a zarejestrowanymi klastrami.
- Jeśli klaster jest zarejestrowany w Prism Central, upewnij się, że jest on zaktualizowany przed uaktualnieniem AOS w klastrze Prism Element. Prism Central jest przeznaczony do zarządzania klastrami Prism Element, które są w tej samej głównej kompilacji i wcześniejszych wersjach. Na przykład Prism Central 5.10.0.1 jest obsługiwany do zarządzania klastrami Prism Element działającymi w wersji 5.10.0.2, ponieważ główna kompilacja (5.10.0) jest taka sama. Jednak PC 5.10.0.1 nie jest obsługiwany do zarządzania klastrami PE działającymi w wersji 5.10.1, ponieważ ta wersja PE jest późniejszą główną kompilacją. W takich przypadkach PC powinien zostać uaktualniony do wersji 5.10.1 lub nowszej, aby przywrócić mu zgodność z zarządzanymi klastrami.
- Sprawdź strony Ścieżki aktualizacji i Macierz zgodności w Portalu Nutanix, aby upewnić się, że nowe oprogramowanie jest zgodne. Macierz zgodności zawiera również wskazówki dotyczące zgodności oprogramowania z rozwiązaniami partnerskimi Nutanix Ready Partner Solutions i systemami operacyjnymi AHV Guest Operating Systems.
- Przeczytaj informacje o wydaniu w Portalu pomocy technicznej, aby uzyskać informacje o znanych problemach w danym wydaniu, a także o poprawkach błędów, udoskonaleniach i funkcjach, które się w nim pojawiają.
- Jeśli używasz hiperwizora lub aplikacji innej firmy, sprawdź na stronie internetowej dostawcy, czy jest on zgodny z żądaną wersją systemu AOS.
Rozwiązanie
Poniżej znajdziesz podsumowanie wymagań wstępnych dla każdego typu aktualizacji, informacje o tym, co dzieje się po stronie zaplecza, oraz ile czasu może zająć operacja.
Oprogramowanie AOS
Wymagania wstępne aktualizacji
Co się stanie po kliknięciu przycisku „Uaktualnij teraz” ?
- Najpierw zostaną uruchomione kontrole przed uaktualnieniem, aby upewnić się, że klaster może zostać uaktualniony. Jeśli którakolwiek z kontroli przed uaktualnieniem się nie powiedzie, zobaczysz o tym informacje w Prism, a rzeczywista aktualizacja AOS nie zostanie uruchomiona. Użytkownicy będą musieli kliknąć Back to Versions i ponownie uruchomić aktualizację po rozwiązaniu problemu zgłoszonego przez kontrole wstępne. Aby zobaczyć pełną listę kontroli wstępnych i powiązane z nimi artykuły, sprawdź KB 6524 .
- Następnie oprogramowanie AOS jest kopiowane do każdej maszyny wirtualnej kontrolera (CVM) w klastrze.
- Na ostatnim etapie maszyny wirtualne kontrolera w klastrze uruchamiają się ponownie pojedynczo do nowej wersji AOS. Ruch pamięci masowej z maszyn wirtualnych użytkownika zostanie przekierowany do sąsiedniej maszyny CVM, podczas gdy lokalna maszyna CVM jest aktualizowana. W tym krótkim okresie (około 10 minut) lokalne maszyny wirtualne użytkownika mogą doświadczyć niewielkiego dodatkowego opóźnienia, ponieważ otrzymują swoje wejście/wyjście pamięci masowej ze zdalnej maszyny CVM.
Ile czasu to zajmie?
Może to potrwać 15-20 minut na węzeł. Proces uaktualniania w klastrze dwuwęzłowym potrwa dłużej niż zwykły proces ze względu na dodatkowy krok synchronizacji danych podczas przechodzenia między stanem pojedynczego węzła a stanem dwóch węzłów. Niemniej jednak klaster pozostaje operacyjny podczas uaktualniania.
Oprogramowanie Prism Central
Co się stanie po kliknięciu przycisku „Uaktualnij teraz” ?
- Najpierw zostaną uruchomione kontrole przed uaktualnieniem, aby upewnić się, że klaster może zostać uaktualniony. Jeśli którakolwiek z kontroli przed uaktualnieniem się nie powiedzie, w Prism zobaczysz o tym informacje, a sama aktualizacja nie zostanie rozpoczęta. Użytkownicy będą musieli kliknąć Back to Versions i ponownie rozpocząć aktualizację po rozwiązaniu problemu zgłoszonego przez kontrole wstępne. Aby zobaczyć pełną listę kontroli wstępnych i powiązane z nimi artykuły, zapoznaj się z KB 6524 .
- Jeśli masz regularny Single-VM Prism Central, nowe oprogramowanie zostanie przygotowane, a następnie PCVM zostanie ponownie uruchomiony, aby przejść do nowej wersji. W tym krótkim czasie interfejs użytkownika nie będzie dostępny, ale nie będzie to miało wpływu na klastry Prism Element zarządzane przez Prism Central.
- Jeśli masz Scale-Out Prism Central (trzy PCVM), oprogramowanie zostanie skopiowane do każdego PCVM, a następnie zostaną one ponownie uruchomione jeden po drugim, aby uruchomić nowe oprogramowanie. Usługi Prism Central i interfejs użytkownika będą nadal dostępne podczas aktualizacji.
- Po uruchomieniu PCVM z aktualizacji, interfejs użytkownika będzie dostępny przez kilka minut. Zaloguj się i upewnij się, że zadanie Prism Central Upgrade zostało pomyślnie ukończone (100%).
Ile czasu to zajmie?
W przypadku Prism Central dla pojedynczej maszyny wirtualnej około 25 minut.
W przypadku skalowalnego Prism Central (trzy PCVM) około 1 godziny.
Oprogramowanie hiperwizora
Co się stanie, gdy kliknę „Uaktualnij teraz” ?
- Najpierw zostaną uruchomione kontrole przed uaktualnieniem, aby upewnić się, że klaster może zostać uaktualniony. Jeśli którakolwiek z kontroli przed uaktualnieniem się nie powiedzie, zobaczysz o tym informacje w Prism, a rzeczywista aktualizacja hypervisora nie zostanie uruchomiona. Użytkownicy będą musieli kliknąć Back to Versions i ponownie uruchomić aktualizację po rozwiązaniu problemu zgłoszonego przez kontrole wstępne. Aby zobaczyć pełną listę kontroli wstępnych i powiązane z nimi artykuły, zapoznaj się z KB 6524 .
- Podczas uaktualniania wybierany jest host w klastrze i przesyłane jest zadanie migracji maszyn wirtualnych użytkowników z hosta.
- Gdy CVM staje się jedyną maszyną wirtualną pozostałą na hoście, zostaje ona przełączona w tryb konserwacji, a następnie instalowane jest nowe oprogramowanie dla hiperwizora.
- Po zainstalowaniu nowej wersji hiperwizora wyświetlany jest komunikat o konieczności ponownego uruchomienia hosta.
- Po ponownym uruchomieniu hosta i zainstalowaniu nowej wersji oprogramowania, host wychodzi z trybu konserwacji i włącza się CVM.
- Klaster będzie czekał, aż maszyna wirtualna kontrolera i jej usługi zostaną włączone, zanim wybierze kolejnego hosta, który przejdzie uaktualnienie. Hiperwizor będzie równoważył maszyny wirtualne użytkownika w uaktualnionym węźle w razie potrzeby, na podstawie istniejącej konfiguracji.
Ile czasu to zajmie?
Zależy to od tego, ile czasu zajmie ewakuacja maszyn wirtualnych użytkownika z każdego hosta przed jego wyłączeniem w celu uaktualnienia. Dobrym szacunkiem jest około 30–45 minut na węzeł.
Oprogramowanie układowe z Life Cycle Manager (LCM)
Ta sekcja będzie się koncentrować głównie na aktualizacjach oprogramowania układowego za pomocą LCM; jednak możesz również użyć LCM do uaktualnienia oprogramowania, takiego jak AOS i Foundation. Aktualizacja jednostek oprogramowania za pomocą LCM wykorzystuje te same mechanizmy, które były dostępne w starszej sekcji One Click Upgrade Software w Prism. Jeśli jesteś zainteresowany tym, jak to działa, zapoznaj się z sekcjami tego dokumentu, które opisują te przepływy pracy.
Zobacz KB 7536 , aby uzyskać FAQ na temat tej funkcji. Musisz skonfigurować reguły w zewnętrznej zaporze, aby zezwolić na aktualizacje LCM. Zobacz Prism Web Console Guide: Firewall Requirements, aby uzyskać szczegółowe informacje. Zapoznaj się z LCM Guide, aby uzyskać pełne informacje na temat korzystania z tej funkcji.
Możliwość LCM do inwentaryzacji lub aktualizacji niektórych komponentów może zależeć od tego, które wersje AOS i Foundation są uruchomione w klastrze. Użytkownicy chcący zobaczyć pełną listę dostępnych aktualizacji powinni najpierw rozważyć zaktualizowanie tego oprogramowania lub sprawdzić w LCM Release Notes, czy któraś z tych zależności istnieje w ich środowisku.
Co się stanie, gdy kliknę „Aktualizuj” ?
- Najpierw zostaną uruchomione wstępne kontrole, aby upewnić się, że klaster jest w dobrym stanie do przeprowadzenia aktualizacji. Prism zgłosi, czy jakiekolwiek wstępne kontrole zakończą się niepowodzeniem, a wyjaśnienie każdej z nich i sposobu rozwiązania problemu można znaleźć w KB 4584. Po rozwiązaniu problemu, który spowodował niepowodzenie wstępnej kontroli, uruchom nową inwentaryzację, a następnie spróbuj ponownie wykonać operację aktualizacji.
- Zasadniczo wszystkie aktualizacje oprogramowania sprzętowego wykonywane za pośrednictwem LCM wymagają, aby hosty uruchomiły się w obszarze przejściowym opartym na systemie CentOS o nazwie Phoenix, z następującymi wyjątkami.
- Niektóre moduły dla platform Dell.
- Od wersji LCM 2.3.2 w przypadku oprogramowania sprzętowego DISK, LCM korzysta z mechanizmu aktualizacji bazującego na IVU, który nie wymaga ponownego uruchomienia hosta.
- Od wersji LCM 2.4.0 w przypadku oprogramowania układowego BIOS i BMC, po spełnieniu pewnych warunków LCM wykorzystuje mechanizm aktualizacji Redfish, który nie wymaga ponownego uruchomienia hosta.
- LCM ma wbudowaną inteligencję, która mówi mu, w jakiej kolejności wykonać aktualizacje oprogramowania sprzętowego, więc użytkownicy nie muszą się martwić, które aktualizacje wykonać jako pierwsze. Użytkownicy mogą po prostu wybrać akcję Update All , a LCM automatycznie spełni wszystkie zależności między oprogramowaniem sprzętowym.
- Jeśli wybrano wiele hostów do wykonania aktualizacji oprogramowania sprzętowego, LCM ewakuuje maszyny wirtualne użytkowników z hostów pojedynczo i uruchamia je w obszarze przejściowym Phoenix w celu wykonania aktualizacji. Żadne maszyny wirtualne użytkowników nie zostaną wyłączone, a obciążenie powinno być nadal obsługiwane bez zakłóceń.
- W zależności od uaktualnianego oprogramowania układowego, możesz zobaczyć, że hypervisor kilkakrotnie restartuje się do Phoenix. Jest to oczekiwane zachowanie i nie powinieneś próbować interweniować.
- Po zakończeniu aktualizacji oprogramowania sprzętowego wybrany węzeł uruchomi się ponownie w hiperwizorze i włączy lokalną maszynę wirtualną kontrolera, co pozwoli upewnić się, że wszystkie usługi klastra są uruchomione i działają.
- Na koniec LCM upewni się, że lokalny hiperwizor może ponownie obsługiwać maszyny wirtualne użytkowników, zanim uaktualnienie zostanie przeniesione na kolejny węzeł.
Ile czasu to zajmie?
Zależy to od liczby aktualizacji oprogramowania sprzętowego wykonywanych na danym węźle i czasu potrzebnego na ewakuację maszyn wirtualnych użytkownika z każdego hosta. Jako punkt odniesienia,
- Aktualizacja oprogramowania układowego SATA DOM (Phoenix) zajmuje około 45 minut na węzeł.
- Uaktualnienia oprogramowania układowego BIOS i BMC (Phoenix) zajmują z reguły tyle samo czasu, co uaktualnienia SATA DOM.
- Uaktualnienia oprogramowania układowego BIOS i BMC (Redfish) zajmują zazwyczaj około 10–15 minut.
- Aktualizacja oprogramowania sprzętowego DISK (IVU) zajmuje mniej czasu w porównaniu z mechanizmem Phoenix, ale całkowity czas jest proporcjonalny do liczby uaktualnianych dysków.
Oprogramowanie fundacyjne
Jedynym warunkiem wstępnym uaktualnienia oprogramowania Foundation jest to, że wszystkie CVM są uruchomione, a usługa Foundation jest w stanie zatrzymania w całym klastrze. Ta usługa zazwyczaj nie jest uruchomiona, chyba że ma miejsce uaktualnienie LCM lub operacja rozszerzenia klastra.
Co się stanie, gdy kliknę „Uaktualnij teraz” ?
Pliki binarne Foundation to aktualizacje wszystkich CVM. Żadne uruchomione usługi, CVM ani hypervisory nie są ponownie uruchamiane.
Ile czasu to zajmie?
Zajmie to około minuty.
Oprogramowanie Nutanix Cluster Check (NCC)
Nie ma żadnych warunków wstępnych do uaktualnienia NCC poza tym, że wszystkie CVM muszą być aktywne. Zapoznaj się z NCC Guide , aby uzyskać instrukcje dotyczące uaktualnienia.
Co się stanie, gdy kliknę „Uaktualnij teraz” ?
Nowe oprogramowanie NCC jest kopiowane do każdego CVM, a następnie usługa cluster_health, która odpowiada za monitorowanie kondycji i logikę leżącą u podstaw alertów klastra, jest ponownie uruchamiana na każdym węźle. Żadne usługi zaangażowane w ścieżkę danych nie są ponownie uruchamiane.
Ile czasu to zajmie?
Zajmie to około pięciu minut.
Oprogramowanie serwera plików (pliki Nutanix)
Instalowanie (lub uaktualnianie) plików
Co się stanie po kliknięciu przycisku „Uaktualnij teraz” ?
- Najpierw zostaną przeprowadzone kontrole przed uaktualnieniem, aby upewnić się, że klaster może zostać uaktualniony. Jeśli którakolwiek z kontroli przed uaktualnieniem się nie powiedzie, w Prism zobaczysz o tym informacje, a aktualizacja serwera plików nie zostanie uruchomiona. Użytkownicy będą musieli kliknąć Back to Versions i ponownie uruchomić aktualizację po rozwiązaniu problemu zgłoszonego przez kontrole wstępne. Aby zobaczyć pełną listę kontroli wstępnych i powiązane z nimi artykuły, zapoznaj się z KB-6524 .
- Po rozpoczęciu aktualizacji File Server każda maszyna wirtualna File Server jest uaktualniana pojedynczo do nowej wersji Nutanix Files. Podczas gdy FSVM jest wyłączony z powodu aktualizacji, użytkownicy połączeni z udziałami hostowanymi przez ten węzeł mogą doświadczyć utraty łączności przez okres około 20-30 sekund. Po tym krótkim okresie inny FSVM przejmie hostowanie tych udziałów, a użytkownicy odzyskają dostęp do swoich plików.
- Po ponownym uruchomieniu każdej maszyny FSVM do nowej wersji Nutanix Files, aktualizacja sprawdzi, czy może ona ponownie obsługiwać udziały, zanim rozpocznie się aktualizacja kolejnej maszyny FSVM.
Ile czasu to zajmie?
Około 20 minut na maszynę wirtualną serwera plików.
Informacje dodatkowe
- Nutanix KB 6945 - Oryginalny dokument w portalu Nutanix