NCC 運行狀況檢查：cluster_services_status

這份文件為翻譯程式自動翻譯結果,請點選以下連結流灠英文版文件內容。

描述

NCC 運作狀況檢查cluster_services_status驗證控制器虛擬機器 (CVM) 服務最近是否在叢集中重新啟動。

按一下此處顯示已檢查的服務

NCC-3.10.1 之前的版本

此檢查每 4 小時執行一次，並尋找過去 24 小時內產生的 FATAL 日誌。

儘管此NCC 檢查對目前服務狀態和先前的崩潰執行檢查，但僅當一個或多個服務在過去24 小時內多次崩潰並產生FATAL 日誌（在單一控制器上5 次）時，此檢查才會導致FAIL 狀態VM 或跨叢集 10 次）。

發佈到 NCC-3.10.1

此檢查每 10 分鐘執行一次，並尋找過去 24 小時內產生的 FATAL 日誌。

以下兩種情況檢定失敗：

對於節點數超過 10 的集群，服務一天內在集群中發生 FATAL 10 次（或）對於節點數最多為 10 的集群，一天內發生 FATAL 的次數大於或等於集群中的節點數節點。
一天內，一項服務在單一 CVM 中發生 5 次致命錯誤。

叢集中的單一節點代表叢集中的所有其他 CVM 報告cluster_services_status檢查的 FAIL 狀態。在調查 FATAL 日誌時，請確保查看所有 CVM，並使用 FAIL 狀態訊息中受影響的服務清單作為指引。

如果最近對叢集執行了維護活動，則此檢查的 FAIL 狀態表示服務不穩定，這可能會影響叢集效能或可服務性。

從 NCC 版本 3.5.1 開始，此檢查適用於橫向擴展 PC 叢集中的 Prism Central VM。

運行 NCC 檢查

作為完整 NCC 運行狀況檢查的一部分執行此檢查。

 nutanix@cvm$ ncc health_checks run_all

或者您可以單獨執行此檢查。

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

您也可以從 Prism Web 控制台執行狀況頁面執行檢查：選擇操作>執行檢查。選擇所有檢查並點擊運行。

預設情況下，此檢查計劃每 10 分鐘運行一次。
此檢查將在 1 次失敗後產生警報。

輸出範例

狀態：透過

在所有節點上執行 /health_checks/system_checks/cluster_services_status [ PASS ]
-------------------------------------------------- ----------------------+
+----------------+
|狀態|計數|
+----------------+
|通行證 | 1 |
|總計 | 1 |
+----------------+
插件輸出寫入 /home/nutanix/data/logs/ncc-output-latest.log

對於狀態：失敗

cluster_services_status 的詳細資訊：
 節點xxx：
 失敗：過去 24 小時內轉儲的元件核心：['cerebro', 'curator']
 有關 cluster_services_status 的詳細信息，請參閱 KB 3378 (http://portal.nutanix.com/kb/3378) 或使用以下命令重新檢查：ncc health_checks system_checks cluster_services_status

輸出訊息

檢查身份證件	3034
描述	檢查叢集中的服務最近是否重新啟動。
失敗原因	此警報表示群集中的一項或多項服務已重新啟動。
決議	如果此警報僅出現一次或很少出現，則無需採取任何措施。如果頻繁出現，請聯絡 Nutanix 支援。
影響	集群性能可能會顯著下降。在多個服務具有相同條件的情況下，叢集可能無法服務 I/O 請求。
警報ID	A3034
警報智慧標題	集群服務頻繁重啟
警報標題	Cluster Service服務頻繁重啟
警報訊息	所有控制器虛擬機器上的服務已多次重新啟動。這些服務的最新崩潰分別發生在時間戳上。

解決方案

如果cluster_services_status檢查返回 FAIL 狀態，請執行以下操作：

檢查所有控制器虛擬機器上產生的核心轉儲清單：
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

從任何控制器 VM 執行logbay以收集過去 24 小時的記錄檔。（有關logbay的更多信息，請參閱Nutanix KB 6691。）
```
 nutanix@cvm$ logbay 收集 --aggregate=true --duration=-24h
```
這會在目錄/home/nutanix/data/logbay/bundles/中產生一個 zip 檔案。
注意：在較大的叢集上，聚合日誌包可能會變得太大，無法進行 24 小時日誌收集。在這種情況下，請使用不含--aggregate選項的 logbay，並將日誌包從每個 CVM 上傳到支援案例。

驗證以下內容並尋找帶有*.stack_trace.txt.gz的文件，該文件必須位於已產生核心轉儲的 CVM 上。
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

在Nutanix 支援入口網站上建立一個新案例，並將上述命令的輸出和 logbay 捆綁包附加到支援案例。

附加資訊

Nutanix KB 3378 - Nutanix 入口網站中的原始文檔
Nutanix 登陸頁面
Lenovo ISG 支援計畫 - ThinkAgile HX Appliance 和Lenovo Converged HX 系列

文件ID:HT516511

原始發布日期:05/21/2024

Last Modified Date:05/30/2024