NCC 運行狀況檢查:cluster_services_status
NCC 運行狀況檢查:cluster_services_status
NCC 運行狀況檢查:cluster_services_status
描述
NCC 運作狀況檢查cluster_services_status驗證控制器虛擬機器 (CVM) 服務最近是否在叢集中重新啟動。
NCC-3.10.1 之前的版本
此檢查每 4 小時執行一次,並尋找過去 24 小時內產生的 FATAL 日誌。
儘管此NCC 檢查對目前服務狀態和先前的崩潰執行檢查,但僅當一個或多個服務在過去24 小時內多次崩潰並產生FATAL 日誌(在單一控制器上5 次)時,此檢查才會導致FAIL 狀態VM 或跨叢集 10 次)。
發佈到 NCC-3.10.1
此檢查每 10 分鐘執行一次,並尋找過去 24 小時內產生的 FATAL 日誌。
以下兩種情況檢定失敗:
- 對於節點數超過 10 的集群,服務一天內在集群中發生 FATAL 10 次(或)對於節點數最多為 10 的集群,一天內發生 FATAL 的次數大於或等於集群中的節點數節點。
- 一天內,一項服務在單一 CVM 中發生 5 次致命錯誤。
叢集中的單一節點代表叢集中的所有其他 CVM 報告cluster_services_status檢查的 FAIL 狀態。在調查 FATAL 日誌時,請確保查看所有 CVM,並使用 FAIL 狀態訊息中受影響的服務清單作為指引。
如果最近對叢集執行了維護活動,則此檢查的 FAIL 狀態表示服務不穩定,這可能會影響叢集效能或可服務性。
從 NCC 版本 3.5.1 開始,此檢查適用於橫向擴展 PC 叢集中的 Prism Central VM。
運行 NCC 檢查
作為完整 NCC 運行狀況檢查的一部分執行此檢查。
nutanix@cvm$ ncc health_checks run_all
或者您可以單獨執行此檢查。
nutanix@cvm$ ncc health_checks system_checks cluster_services_status
您也可以從 Prism Web 控制台執行狀況頁面執行檢查:選擇操作>執行檢查。選擇所有檢查並點擊運行。
預設情況下,此檢查計劃每 10 分鐘運行一次。
此檢查將在 1 次失敗後產生警報。
輸出範例
狀態:透過
在所有節點上執行 /health_checks/system_checks/cluster_services_status [ PASS ]
-------------------------------------------------- ----------------------+
+----------------+
|狀態|計數|
+----------------+
|通行證 | 1 |
|總計 | 1 |
+----------------+
插件輸出寫入 /home/nutanix/data/logs/ncc-output-latest.log
對於狀態:失敗
cluster_services_status 的詳細資訊:
節點xxx:
失敗:過去 24 小時內轉儲的元件核心:['cerebro', 'curator']
有關 cluster_services_status 的詳細信息,請參閱 KB 3378 (http://portal.nutanix.com/kb/3378) 或使用以下命令重新檢查:ncc health_checks system_checks cluster_services_status
輸出訊息
檢查身份證件 | 3034 |
描述 | 檢查叢集中的服務最近是否重新啟動。 |
失敗原因 | 此警報表示群集中的一項或多項服務已重新啟動。 |
決議 | 如果此警報僅出現一次或很少出現,則無需採取任何措施。如果頻繁出現,請聯絡 Nutanix 支援。 |
影響 | 集群性能可能會顯著下降。在多個服務具有相同條件的情況下,叢集可能無法服務 I/O 請求。 |
警報ID | A3034 |
警報智慧標題 | 集群服務頻繁重啟 |
警報標題 | Cluster Service服務頻繁重啟 |
警報訊息 | 所有控制器虛擬機器上的服務已多次重新啟動。這些服務的最新崩潰分別發生在時間戳上。 |
解決方案
如果cluster_services_status檢查返回 FAIL 狀態,請執行以下操作:
- 檢查所有控制器虛擬機器上產生的核心轉儲清單:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- 從任何控制器 VM 執行logbay以收集過去 24 小時的記錄檔。 (有關logbay的更多信息,請參閱Nutanix KB 6691。 )
nutanix@cvm$ logbay 收集 --aggregate=true --duration=-24h
這會在目錄/home/nutanix/data/logbay/bundles/中產生一個 zip 檔案。
注意:在較大的叢集上,聚合日誌包可能會變得太大,無法進行 24 小時日誌收集。在這種情況下,請使用不含--aggregate選項的 logbay,並將日誌包從每個 CVM 上傳到支援案例。
- 驗證以下內容並尋找帶有*.stack_trace.txt.gz的文件,該文件必須位於已產生核心轉儲的 CVM 上。
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- 在Nutanix 支援入口網站上建立一個新案例,並將上述命令的輸出和 logbay 捆綁包附加到支援案例。
附加資訊
- Nutanix KB 3378 - Nutanix 入口網站中的原始文檔
- Nutanix 登陸頁面
- Lenovo ISG 支援計畫 - ThinkAgile HX Appliance 和Lenovo Converged HX 系列