Nutanix 的升级方式
Nutanix 的升级方式
Nutanix 的升级方式
描述
Nutanix 的升级始终设计为无需停机即可完成用户虚拟机及其工作负载。本文档旨在作为介绍每种升级类型的工作原理的介绍,并为管理员分享一些有用的最佳实践。您将在Acropolis 升级指南中找到类似的信息(请记住始终选择与您的集群上当前运行的 AOS 相匹配的指南)。
受影响的版本:所有版本、所有 Nutanix Files 版本、所有 LCM 版本、所有 AOS 版本、所有 AHV 版本
以下内容适用于所有Nutanix 升级:
是否需要停机?
否。用户虚拟机可能会在主机之间实时迁移,具体取决于执行的升级类型,但这不会对其服务产生影响。用户应保持对其虚拟机的访问,并能够在升级期间正常工作。无法实时迁移的虚拟机(例如具有 vGPU 或关联性规则的虚拟机)需要关闭电源或在需要重新启动主机的任何升级之前删除这些设置。如果不这样做,将导致升级卡在撤离用户虚拟机的过程中。
对性能有影响吗?
Nutanix 建议在计划的维护时段或正常营业时间之外进行升级;否则,用户可能会在升级过程中遇到延迟。由于此配置上可用的带宽有限,这种延迟对于仅使用 1GB 速度网络上行链路的集群来说可能尤其明显。
建议的升级顺序是什么?
可以参考雅典卫城指南中的“建议升级顺序”部分来了解升级应遵循的顺序。
如果升级陷入停滞,会发生什么情况?
- 如果在升级前检查期间遇到故障,请查看 Prism 中引用的文章,了解如何解决问题。问题解决后,单击链接返回 Prism 中的可用版本,然后再次尝试升级。
- 如果升级本身卡住了,请联系Nutanix 支持寻求帮助。请勿尝试干预,因为这可能会导致中断。
- Nutanix 不支持软件升级回滚。
我如何知道某个版本是否兼容?
- 如果某个版本出现在 Prism 的升级软件或生命周期管理器 (LCM) 部分,则自动意味着已经确认它与当前的集群兼容,您可以随时转到新版本。
- 如果您没有看到您想要的版本,则可能有多种原因。较新的版本需要一段时间才能提供一键下载,但您仍然可以直接从Nutanix 门户获取二进制文件和元数据文件,然后手动将它们上传到 Prism。也可能需要转到中间版本(多步升级),以便首先将集群升级到能够升级到所需版本的版本。
- Nutanix 门户上的“升级路径”页面将根据您当前运行的版本向您显示您的集群现在可以升级到哪些版本的 AOS、Prism Central (PC) 或 Nutanix Files。如果您需要升级到比“升级路径”页面中显示的版本更高的版本,请先将集群升级到最新的版本。完成此操作后,您应该能够在下次尝试时达到所需的版本。为了节省时间,请记住,在长期支持 (LTS) 版本分支(例如 5.5.x)上运行 AOS 的集群始终可以直接升级到下一个可用的 LTS 版本分支(例如 5.10.x)。
- 要查看特定版本的 AOS、Prism Central 和 Nutanix Files 是否相互兼容,请检查软件产品互操作性。
我应该提前做什么?
- 在开始升级之前,安装并运行最新版本的Nutanix Cluster Check (NCC)以确保集群处于最佳状态始终是一个好idea 。
- 为确保 Prism 能够访问您想要选择的软件和固件,请查看端口和防火墙要求,并验证您的网络是否已正确配置。如果您使用的是 Prism Central,请确保 Prism Central VM 和任何已注册集群之间的 SSL 端口 9440 双向打开。
- 如果您的集群已注册到 Prism Central,请确保在升级 Prism Element 集群上的 AOS 之前将其更新。Prism Central 旨在管理同一主要版本和更早版本的 Prism Element 集群。例如,Prism Central 5.10.0.1 支持管理运行 5.10.0.2 的 Prism Element 集群,因为主要版本 (5.10.0) 相同。但是,PC 5.10.0.1 不支持管理运行 5.10.1 的 PE 集群,因为此 PE 版本是较新的主要版本。在这种情况下,应将 PC 升级到 5.10.1 或更高版本,以使其重新与其管理的集群兼容。
- 检查 Nutanix 门户上的升级路径和兼容性矩阵页面,以确保新软件兼容。兼容性矩阵还包含有关软件与 Nutanix Ready 合作伙伴解决方案和 AHV 客户操作系统兼容性的指导。
- 阅读支持门户上的发行说明,以获取有关发行版中已知问题以及附带的错误修复、改进或功能的信息。
- 如果您正在使用第三方虚拟机管理程序或应用程序,请检查供应商的网站以确保它与所需的 AOS 版本兼容。
解决方案
下面您将看到每种升级类型的先决条件的摘要、后端发生的情况以及操作预计需要多长时间。
AOS软件
当我单击“立即升级”时会发生什么?
- 首先,将运行升级前检查以确保集群能够升级。如果任何升级前检查失败,您将在 Prism 中看到有关此问题的信息,并且实际的 AOS 升级将不会启动。用户必须单击“返回版本”并在解决预检查报告的问题后再次开始升级。要查看预检查及其相关文章的完整列表,请查看KB 6524 。
- 接下来,将 AOS 软件复制到集群中的每个 CVM(控制器 VM)。
- 在最后阶段,集群中的控制器虚拟机将逐个重新启动到新的 AOS 版本。在本地虚拟机升级时,来自用户虚拟机的存储流量将被重定向到相邻的 CVM。在此短暂时间内(约 10 分钟),本地用户虚拟机可能会遇到少量额外的延迟,因为它们正在从远程 CVM 接收存储 I/O。
多久时间?
每个节点可能需要 15-20 分钟。双节点集群中的升级过程将比通常的过程花费更长的时间,因为在单节点和双节点状态之间转换时需要额外的数据同步步骤。不过,集群在升级期间仍可正常运行。
Prism Central 软件
当我单击“立即升级”时会发生什么?
- 首先,将运行升级前检查以确保集群能够升级。如果任何升级前检查失败,您将在 Prism 中看到有关此问题的信息,并且实际升级将不会启动。用户必须单击“返回版本”并在解决预检查报告的问题后再次开始升级。要查看预检查及其相关文章的完整列表,请查看KB 6524 。
- 如果您有常规的单虚拟机 Prism Central,新软件将被暂存,然后 PCVM 将重新启动以启动新版本。在这短暂的时间内,UI 将不可用,但这不会对 Prism Central 管理的 Prism Element 集群产生影响。
- 如果您有 Scale-Out Prism Central(三台 PCVM),软件将被复制到每台 PCVM,然后它们将逐台重新启动以启动新软件。升级期间 Prism Central 服务和 UI 仍可用。
- PCVM 从升级启动后,需要几分钟才能使用 UI。登录并确保 Prism Central 升级任务已成功完成(100%)。
多久时间?
对于单虚拟机 Prism Central,大约需要 25 分钟。
对于 Scale-Out Prism Central(三台 PCVM),大约 1 小时。
虚拟机管理程序软件
当我单击“立即升级”时会发生什么?
- 首先,将运行升级前检查以确保集群能够升级。如果任何升级前检查失败,您将在 Prism 中看到有关此问题的信息,并且实际的虚拟机管理程序升级将不会启动。用户必须单击“返回版本”并在解决预检查报告的问题后重新启动升级。要查看预检查及其相关文章的完整列表,请查看KB 6524 。
- 升级选择集群中的一个主机,并提交任务从该主机迁移用户虚拟机。
- 一旦 CVM 成为主机上剩下的唯一虚拟机,它就会进入维护模式,并启动虚拟机管理程序的新软件。
- 安装新版本的虚拟机管理程序后,将重新启动主机。
- 一旦主机重启并运行新的软件版本,主机将退出维护模式并且 CVM 将启动。
- 集群将等待控制器虚拟机及其服务上线,然后再选择下一个要升级的主机。虚拟机管理程序将根据现有配置根据需要在升级的节点上平衡用户虚拟机。
多久时间?
这取决于在升级之前从每个主机撤离用户虚拟机需要多长时间。每个节点大约需要 30-45 分钟。
带有生命周期管理器 (LCM) 的固件
本节主要介绍使用 LCM 进行固件更新;但是,您也可以使用 LCM 升级 AOS 和 Foundation 等软件。使用 LCM 更新软件实体所使用的机制与 Prism 的旧版一键升级软件部分中提供的机制相同。如果您对这些工作原理感兴趣,请参阅本文档中描述这些工作流程的部分。
有关此功能的常见问题解答,请参阅KB 7536。您必须在外部防火墙中配置规则以允许 LCM 更新。有关详细信息,请参阅Prism Web 控制台指南:防火墙要求。有关使用该功能的完整详细信息,请参阅LCM 指南。
LCM 清点或更新某些组件的能力可能取决于集群上运行的 AOS 和 Foundation 版本。希望查看可用更新的完整列表的用户应考虑先更新这些软件,或查看LCM 发行说明以查看您的环境是否存在这些依赖项。
当我单击“更新”时会发生什么?
- 首先将运行预检查,以确保集群处于良好状态,以便继续升级。Prism 将报告任何预检查是否失败,您可以查阅KB 4584了解每个检查的说明以及如何解决问题。解决导致预检查失败的问题后,运行新的清单,然后再次尝试升级操作。
- 基本上,通过 LCM 执行的所有固件更新都要求主机启动到名为 Phoenix 的基于 CentOS 的暂存区,但有以下例外。
- 适用于戴尔平台的某些模块。
- LCM 2.3.2 及更高版本,对于 DISK 固件,LCM 采用基于 IVU 的更新机制,不需要主机重启。
- LCM 2.4.0 及以上版本,对于BIOS和 BMC 固件,当满足某些条件时,LCM 使用 Redfish 更新机制,不需要主机重新启动。
- LCM 具有内置智能功能,可以告诉它按什么顺序进行固件更新,因此用户无需担心先执行哪些更新。用户只需选择“全部更新”操作,LCM 就会自动满足固件之间的所有依赖关系。
- 如果选择多个主机执行固件更新,LCM 将逐个从主机中撤出用户虚拟机,并将其引导到 Phoenix 暂存区以执行更新。不会关闭任何用户虚拟机,您的工作负载应继续无中断地运行。
- 根据正在升级的固件,您可能会看到虚拟机管理程序多次重新启动回到 Phoenix。这是预期行为,您不应尝试干预。
- 一旦固件更新完成,选定的节点将重新启动到虚拟机管理程序并启动本地控制器 VM,确保所有集群服务均已启动并正在运行。
- 最后,在升级到下一个节点之前,LCM 将确保本地虚拟机管理程序能够再次托管用户虚拟机。
多久时间?
这取决于给定节点上执行的固件更新数量以及从每个主机撤离用户虚拟机所需的时间。作为参考,
- SATA DOM 固件升级(Phoenix)每个节点大约需要 45 分钟。
- BIOS和 BMC 固件升级(Phoenix)通常花费与 SATA DOM 相同的时间。
- BIOS和 BMC 固件升级(Redfish)通常需要大约 10 - 15 分钟。
- DISK固件升级(IVU)相对于Phoenix机制所需时间较少,但总时间与升级的磁盘数量成正比。
基础软件
Foundation 软件升级的唯一先决条件是所有 CVM 都已启动,并且 Foundation 服务在整个集群中处于停止状态。除非正在进行 LCM 升级或集群扩展操作,否则此服务通常不会运行。
当我单击“立即升级”时会发生什么?
基础二进制文件是所有 CVM 中的更新。不会重新启动正在运行的服务、CVM 或虚拟机管理程序。
多久时间?
这大约需要一分钟。
Nutanix 集群检查 (NCC) 软件
除了所有 CVM 必须启动之外,NCC 升级没有任何先决条件。查看NCC 指南以获取有关如何升级的说明。
当我单击“立即升级”时会发生什么?
将新的 NCC 软件复制到每个 CVM,然后在每个节点上重新启动负责健康监控和集群警报底层逻辑的 cluster_health 服务。数据路径中涉及的任何服务均无需重新启动。
多久时间?
这大约需要五分钟。
文件服务器 (Nutanix Files) 软件
当我单击“立即升级”时会发生什么?
- 首先,将运行升级前检查以确保集群能够升级。如果任何升级前检查失败,您将在 Prism 中看到有关此问题的信息,并且实际文件服务器升级将不会启动。用户必须单击“返回版本”并在解决预检查报告的问题后重新启动升级。要查看预检查的完整列表及其相关文章,请查看KB-6524 。
- 一旦文件服务器升级开始,每个文件服务器虚拟机都会逐个升级到新的 Nutanix Files 版本。当 FSVM 因升级而停机时,连接到此节点托管的共享的用户可能会在约 20-30 秒的时间内遇到连接中断。在此短暂时间之后,另一个 FSVM 将接管托管这些共享,用户将重新获得对其文件的访问权限。
- 在每个 FSVM 重新启动到新版本的 Nutanix Files 后,升级将确保它可以在开始升级下一个 FSVM 之前再次托管共享。
多久时间?
每个文件服务器虚拟机大约 20 分钟。
附加信息
- Nutanix KB 6945 - Nutanix 门户中的原始文档