NCC 運作狀況檢查:pcvm_disk_usage_check
NCC 運作狀況檢查:pcvm_disk_usage_check
NCC 運作狀況檢查:pcvm_disk_usage_check
描述
NCC 運作狀況檢查pcvm_disk_usage_check驗證 Prism Central (PC) VM 中的磁碟或系統分割區使用量是否在限制範圍內。
該檢查有以下幾個部分:
- 檢查各個資料盤的使用情況(NCC 3.5.1新增):
- 如果幾個小時內使用率超過 75%,則會傳回警告以識別磁碟。
- 如果幾個小時內使用率超過 90%,則會傳回 FAIL 來識別磁碟。
- 檢查資料盤整體使用情況(NCC 3.10.1新增):
- 如果幾個小時內總體使用率超過 90%,則會返回 WARNING。
- 如果幾個小時內總體使用率超過 90%,則會返回 WARNING。
- 檢查 Prism Central VM 系統根分區使用量(NCC 3.9.4 中新增)。如果分割區使用率超過 95%,則僅傳回 FAIL 訊息。
- 檢查 Prism Central VM 主分割區使用情況(NCC 3.9.4 中新增):
- 如果使用率超過 75%,則傳回 WARNING。
- 如果使用率超過90%,則傳回FAIL。
- 檢查 Prism Central VM CMSP 分割區使用情況(NCC 3.10.1 中新增):
- 如果使用率超過 75%,則會傳回警告。
- 如果使用率超過90%,則傳回FAIL。
- 檢查 Prism Central VM Upgrade 磁碟分割區使用情況(NCC 4.6.0 中新增):
- 如果使用率超過70%,則傳回FAIL。
- 此檢查每 5 分鐘運行一次。
- 如果故障次數超過 5 次(30 分鐘),則會發出嚴重警報。
注意:如果您執行的是 LCM-2.6 或 LCM-2.6.0.1,LCM 日誌收集會填滿 /home 目錄,請參閱KB-14671以了解解決方法。
運行 NCC 檢查
執行 NCC 檢查作為完整 NCC 運作狀況檢查的一部分。
點這裡 顯示以下詳細資訊:
nutanix@pcvm$ ncc health_checks run_all
或單獨運行pcvm_disk_usage_check檢查。
nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check
您也可以從 Prism Web 控制台執行狀況頁面執行檢查:選擇操作>執行檢查。選擇所有檢查並點擊運行。
預設情況下,此檢查計劃每 5 分鐘運行一次。
此檢查將在預定時間間隔內連續 5 次失敗後產生警報。
樣本輸出
狀態:透過
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ PASS ] -------------------------------------------------------------------------------+ +---------------+ | State | Count | +---------------+ | Pass | 1 | | Total | 1 | +---------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: WARN (在 Prism Central VM 資料磁碟上,例如 /dev/sdc1)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds warning limit 75 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: WARN (在 Prism Central VM 整體 MultiVDisk 上)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx overall MultiVDisk usage exceeds warning limit of 2321329924 KB. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: FAIL (在 Prism Central VM 資料磁碟上,例如 /dev/sdc1)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds critical limit 90 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: FAIL (在根分區上,即/)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: PC VM root partition xxxx disk usage exceeds critical limit 95 % for disks: 97%. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------+ | State | Count | +-----------------+ | Fail | 1 | | Total | 1 | +-----------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: WARN (在 Prism Central VM 主分割區,即 /home)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds warning limit 75 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: FAIL (在 Prism Central VM 主分割區上,即 /home)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds critical limit 90 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: WARN (在 Prism Central VM CMSP 分割區上,即 /dev/sde)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Platform disk space usage in Prism Central VM xxxx exceeds 75% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: FAIL (在 Prism Central VM CMSP 分割區上,即 /dev/sde)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx : FAIL: Platform disk space usage in Prism Central VM xxxx exceeds 90% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
對於狀態: FAIL (在 Prism Central VM 升級磁碟分割區上,即 /home/nutanix/upgrade)
Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: Prism Central VM xxxx upgrade disk usage exceeds critical limit 70 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log
注意:本文中所有在 PC 上執行的命令均假設您透過 SSH 登入 PC 虛擬機器。
檢查PC虛擬機器的磁碟使用情況
以下是如何檢查 PC VM 上的磁碟使用情況的範例。
點這裡 顯示下面的範例:
nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on /dev/sdb1 9.8G 7.2G 2.2G 78% / devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 16K 7.9G 1% /dev/shm tmpfs 7.9G 428K 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb3 40G 4.4G 35G 12% /home /dev/sdc1 493G 431G 57G 69% /home/nutanix/data/stargate-storage/disks/NFS_1_0_450_823394be_0c7b_4f18_8335_71bae1bc6c82 tmpfs 1.6G 0 1.6G 0% /run/user/1000
升級磁碟的分割區將顯示類似於:
/dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade
輸出訊息
|
101059 |
---|---|
|
檢查 Prism Central VM 上的磁碟空間使用情況是否在限制範圍內。 |
|
Prism Central VM 中的磁碟使用率較高。 |
|
有關更多詳細信息,請參閱知識庫文章 5228。 |
|
Prism Central VM 可能會耗盡儲存空間來儲存資料。 |
|
A101059 |
|
Prism Central VM 磁碟使用率高 |
|
Prism Central VM IP磁碟使用率超過警告限制x %(磁碟:磁碟)。 Prism Central VM IP整體多虛擬磁碟使用量超出警告限制 2321329924 KB Prism Central VM IP磁碟使用率超過磁碟的關鍵限制x %:磁碟。 |
|
200316 |
---|---|
|
檢查 Prism Central 系統根分區使用率是否在門檻內,以確保不間斷運作。 |
|
由於日誌記錄過多或維護作業不完整,Prism Central VM 系統根分割區使用率增加。 |
|
透過刪除任何已知的臨時或不需要的檔案來減少 Prism Central VM 系統根分割區的使用。有關更多詳細信息,請參閱知識庫文章 5228。 |
|
如果 Prism Central VM 系統根分割區利用率很高,某些維護作業(例如昇級)可能會受到影響。如果 Prism Central VM 系統根分割區已 100% 使用,服務可能會停止並影響 Prism Central 叢集管理功能。 |
|
A200316 |
|
|
|
實體- ip_address上根分區mount_path的磁碟空間使用率已超過閾值%。 |
|
200317 |
---|---|
|
檢查 Prism Central 主分區使用率是否在門檻內,以確保不間斷運作。 |
|
由於日誌記錄過多或維護作業不完整,Prism Central VM 主分割區使用率增加。 |
|
透過刪除任何已知的臨時或不需要的檔案來減少 Prism Central VM 主分割區的使用。有關更多詳細信息,請參閱知識庫文章 5228。 |
|
如果 Prism Central VM 主分割區利用率很高,則某些維護作業(例如昇級)可能會受到影響。如果 Prism Central VM 主分割區 100% 使用,則服務可能會停止並影響叢集儲存可用性。 |
|
A200317 |
|
Prism Central VM 主分割區磁碟使用率高 |
|
Prism Central VM IP主分割區磁碟使用率超過警告限制x %。 Prism Central VM IP主分割區磁碟使用率超過關鍵限制x %。 |
|
200328 |
---|---|
|
檢查 Prism Central VM 上的平台磁碟空間使用情況是否在限制範圍內。 |
|
Prism Central VM 中的磁碟使用率較高。 |
|
有關更多詳細信息,請參閱知識庫文章 5228。 |
|
Prism Central VM 可能會耗盡儲存空間來儲存資料。 |
|
A200328 |
|
Prism Central VM 平台磁碟空間使用率高 |
|
Prism Central VM svm_ip平台磁碟空間使用率高 |
|
Prism Central VM svm_ip中的平台磁碟空間使用量超過了磁碟的Percentage_exceed %: disk_paths 。 |
|
200334 |
---|---|
|
檢查 Prism Central 升級磁碟使用率是否在閾值內,以確保升級操作不間斷。 |
|
由於存在多個 Prism Central 安裝程式文件,Prism Central VM 升級磁碟使用量增加 |
|
透過刪除不需要的 Prism Central 安裝程式檔案來減少 Prism Central VM 升級分割區的使用。有關更多詳細信息,請參閱知識庫文章 5228。 |
|
如果 Prism Central VM 升級磁碟利用率很高,則 Prism Central 升級將因升級磁碟空間不足而失敗。 |
|
A200334 |
|
Prism Central VM 升級磁碟使用情況 |
|
Prism Central VM <IP> 升級磁碟使用率超出臨界限制 x% |
觸發 pcvm_disk_usage 檢查 /home 分割區上的警告/失敗的場景
點這裡 顯示此步驟的詳細資訊:
場景1
由於舊的 Prism 程式碼未清理,長時間運行的 PC 實例上的/home目錄可能會接近其最大限制:
nutanix@pcvm$ cat ~/config/upgrade.history Thu, 17 Dec 2020 08:51:43 el7.3-release-euphrates-5.19-stable-b2ab98294375c3f24f4d813b83ffcb43d85ebcc1 Tue, 19 Jan 2021 11:53:43 el7.3-release-euphrates-5.19-stable-aadf03fd084cb00f0414f84549b7ebbe9691a984 Wed, 24 Feb 2021 08:53:13 el7.3-release-euphrates-5.19-stable-ddf5fcc232b693ae965280668b10d0337ce99281 Mon, 19 Apr 2021 07:03:39 el7.3-release-euphrates-5.19-stable-6d6cec7de63c8fd117eeb59162031d03c2faf548 Mon, 26 Apr 2021 07:00:07 el7.3-release-euphrates-5.19-stable-3927829dad6a930e67f2f4a47e752df5a8f6c64d Tue, 01 Jun 2021 10:15:14 el7.3-release-euphrates-5.19-stable-db974bded2c0cd1037288ca7aa9aef6f5e441222 Mon, 14 Jun 2021 09:47:29 el7.3-release-fraser-6.0-stable-a48467616ee7c603e3cee3174779cf24bea227cb Thu, 01 Jul 2021 11:52:24 el7.3-release-fraser-6.0-stable-0601c1f41bad35bf4afe05da443947d34927c6ae Thu, 05 Aug 2021 09:16:28 el7.3-release-fraser-6.0-stable-b9dbe4a0b0876cffa23d268d8ddc7f272fa4a166 Wed, 01 Sep 2021 07:44:46 el7.3-release-fraser-6.0-stable-f948d198de58b1b1e511431dbef0b34d20c82739 nutanix@pcvm$ sudo du -sh /home/apache/ www /console/el7.3-release-* 304M el7.3-release-euphrates-5.18.1.1-stable-4546d2908cb8495b316deb45de63b7f5e52541a1 541M el7.3-release-euphrates-5.18.1.2-stable-b1b096696c0c034570545912a00d39746e901f36 675M el7.3-release-euphrates-5.19.1.5-stable-0f9e00f661436fef1af18a094089744f34ccd8c0 1.1G el7.3-release-euphrates-5.19.1.6-stable-a1bbd4f054f86b9d445bf2153b93c5d8d920cff7 629M el7.3-release-euphrates-5.19.1-stable-6edca74801c9db2ff2003780084bb12aa6aa29f4 694M el7.3-release-euphrates-5.19.2-stable-8e7da6324cbe5c34564ec51615b10a7737c6782a 1.1G el7.3-release-euphrates-5.19-stable-5282152e02f3ede70f0957217a62dc436c60b454 329M el7.3-release-euphrates-5.20.1.1-stable-726ea8f7dc4bca156d3e3f63cd7982eecb70c8cb 2.1G el7.3-release-fraser-6.0.1.1-stable-d9f94c47b63e3eb4179dd7a6e16202d5856581a6
此問題已在以下版本中解決和修復:pc.2022.1、pc.2022.4、pc.2021.9.0.5 及更高版本。有關更多詳細資訊和解決方法,請參閱相應的解決方案部分。
刪除舊的 sysstats 日誌
如果您已檢查了所有常用位置但仍需要清理空間,您可以獲得客戶的許可來刪除較舊的 sysstats 日誌。在繼續之前,請仔細檢查是否沒有未決的 RCA 的開放支援案例,因為這些資料可能尚未收集。
nutanix@pcvm:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K /home/nutanix/data/logs/ecr 28K /home/nutanix/data/logs/work 5.5M /home/nutanix/data/logs/kafka 127M /home/nutanix/data/logs/cassandra 162M /home/nutanix/data/logs/data_providers 368M /home/nutanix/data/logs/ikat_access_logs 4.2G /home/nutanix/data/logs/sysstats 11G /home/nutanix/data/logs nutanix@pcvm:~$
場景2
在 Prism Central 上啟用 CMSP/微服務後,Hyperkube 日誌(kublet 日誌)不會被清理。
如果使用 LCM 將叢集維護公用程式 (CMU) 更新至版本 2.0.3,則包含的 Scavenger 版本缺少清理與 CMSP 微服務相關的某些日誌的功能。由於此問題,使用者可能會發現 Prism Central 服務未啟動或無法登入 PC UI。此問題將先填入/home/nutanix/data/sys-storage/NFS_.../目錄,之後 kubelet 日誌將開始填入 /tmp 資料夾中的根分割區。
nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 34G 0 34G 0% /dev tmpfs 34G 52K 34G 1% /dev/shm tmpfs 34G 3.4M 34G 1% /run tmpfs 34G 0 34G 0% /sys/fs/cgroup /dev/sdb2 9.8G 9.8G 0G 100% / /dev/sdb3 50G 33G 16G 68% /home tmpfs 6.7G 0 6.7G 0% /run/user/1000 /dev/sdf1 2.5T 21G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977956_4f2835fa_ab29_41c5_9110_483bff268ca0 /dev/sdg1 2.5T 13G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977958_10aa3f76_65a5_4fa6_8c88_7c70a4504f29 /dev/sde1 2.5T 20G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977954_df3a5816_b14b_4098_9b58_d90d670781a1 /dev/sdc1 2.5T 12G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977948_1bd3cd0d_de69_4a98_a18d_6049945e261b /dev/sdd 98G 88G 5.4G 100% /home/nutanix/data/kafka/disks/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c
當 CMSP 啟用時,我們可能會發現hyperkube.ntnx * 日誌產生但未正確輪調。檢查目錄/home/nutanix/data/sys-storage/NFS.../kubelet/是否過度填入了這些日誌。
nutanix@pcvm:~$ du -hsx /home/nutanix/data/sys-storage/NFS*/kubelet/ 97.0G /home/nutanix/data/sys-storage/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c/kubelet/ nutanix@pcvm:~$ ls -l /home/nutanix/data/sys-storage/NFS_4_0_7036_6578653c_8a38_4af8_9649_42e7939f3656/kubelet/kubelet* | wc -l 98
當按預期工作時,我們應該看到此 kubelet 資料夾中使用的空間少於 10G,並且 kubelet* 的檔案計數將少於 ~15
在/home/nutanix/data/sys-storage/NFS...目錄中的空間耗儘後,我們也可能會看到類似的 kubelet 日誌填滿了 /tmp 中的空間。
nutanix@pcvm:~$ sudo du -hsx /tmp 2.8G /tmp nutanix@pcvm:~/tmp$ sudo ls -larth /tmp/ total 2.8G ***truncated*** -rw-r--r--. 1 root root 109K Jun 23 05:49 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-054920.15123 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055012.17214 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055011.17214 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055038.18217 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055038.18217 -rw-r--r--. 1 root root 109K Jun 23 05:51 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055106.19499 -rw-r--r--. 1 root root 1.8G Jun 24 03:20 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055151.21218 -rw-r--r--. 1 root root 60K Jun 24 15:06 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230623-055155.21218 -rw-r--r--. 1 root root 5.8M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055152.21218 -rw-r--r--. 1 root root 990M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-032057.21218 -rw-r--r--. 1 root root 103K Jun 24 23:59 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-235940.170513 -rw-r--r--. 1 root root 3.3K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-000123.175052 -rw-r--r--. 1 root root 6.7K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-000120.175052 -rw-r--r--. 1 root root 2.8M Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-000120.175052 lrwxrwxrwx. 1 root root 67 Jun 25 04:01 kubelet.INFO -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 lrwxrwxrwx. 1 root root 70 Jun 25 04:01 kubelet.WARNING -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 lrwxrwxrwx. 1 root root 68 Jun 25 04:01 kubelet.ERROR -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 25K Jun 25 04:02 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 38K Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 -rw-r--r--. 1 root root 6.0M Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 -rw-------. 1 nutanix nutanix 0 Jun 26 08:37 .nstat.u1000 -rw-r-----. 1 nutanix nutanix 0 Jun 26 08:38 lcm_metrics_uploader_lock -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 lazan_pc_greenlet_stack_dump -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 uhura_greenlet_stack_dump drwxr-xr-x. 19 root root 4.0K Jun 26 08:44 .. drwx------. 2 nutanix nutanix 4.0K Jun 26 09:24 hsperfdata_nutanix drwxrwxrwt. 14 root root 4.0K Jun 26 09:35 .
場景3
啟動 PC.2022.6 - 建立並安裝專用的 30 GB 磁碟用於 PC 升級。該虛擬磁碟將用於從連續升級中下載和提取升級二進位。如果 Prism Central VM 升級磁碟利用率很高,則 Prism Central 升級將因升級磁碟空間不足而失敗。
nutanix@NTNX-PCVM:$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 13G 0 13G 0% /dev tmpfs 13G 40K 13G 1% /dev/shm tmpfs 13G 2.6M 13G 1% /run tmpfs 13G 0 13G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.2G 2.5G 75% / /dev/sdb3 50G 14G 36G 28% /home /dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade /dev/sdc1 492G 147M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_271_960db4d2_45e7_4ef7_92bd_bdcd7e0b6aaf tmpfs 2.6G 0 2.6G 0% /run/user/1000
注意:如果 Prism Central 上啟用了多個服務,例如 msp、karbon、calm、flow 和 object,我們會看到 /home 使用率很高,因為每個服務都會產生多個日誌和設定檔。 Nutanix 工程師不斷致力於改善 /home 的使用。如果上述情況都不匹配,並且這會影響 Prism Central 升級,請讓Nutanix 支援團隊透過修剪日誌來幫助手動清理 /home。
場景4
由於日誌檔案輪調問題,Adonis 日誌目錄使用率很高。此日誌目錄使用量不應超過1G。對於橫向擴展 Prism Central 部署,請檢查每個 Prism Central VM 上的文件使用:
nutanix@pcvm:~/data/logs$ sudo du -h /home/nutanix/adonis/logs 6.1G /home/nutanix/adonis/logs/access 19G /home/nutanix
場景5
在某些情況下,catalina.out 可能會消耗 Prism Central VM 上的大量空間。
透過 SSH 連接到 Prism Central 並檢查 /home/nutanix/data/logs/catalina.out 是否消耗了大量空間:
nutanix@PCVM:~$ allssh du -h /home/nutanix/data/logs/catalina.out
場景6
對於 PC 2022.9 及更高版本,PCVM 中的高索引節點使用率會導致高根分割區使用率
透過 SSH 連接到 prismcentral 並執行以下命令來驗證 inode 使用情況:
nutanix@PCVM:~$ allssh df -i /
解決方案
如果檢查報告 WARN 或 FAIL 狀態,則磁碟使用率高於閾值,需要進行調查。一般情況下,可以使用df -h來查詢空間使用率。下面的輸出顯示了掛載點,如下所示:
- /dev/sdb1 是根分割區
- /dev/sdb3 是主分割區
- /dev/sdc1 為資料盤分區
nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 44K 7.9G 1% /dev/shm tmpfs 7.9G 6.1M 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.4G 2.3G 77% / /dev/sdb3 50G 8.5G 41G 18% /home /dev/sdc1 492G 150M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_267_5a298323_3c9f_4a6f_a265_10c4c1e6593e tmpfs 1.6G 0 1.6G 0% /run/user/1000 /dev/sde 98G 401M 93G 1% /home/nutanix/data/sys-storage/NFS_1_0_264_1f5cda9a_2b3f_4f49_b348_baeb0ae338b8 tmpfs 1.6G 0 1.6G 0% /run/user/0
資料磁碟使用情況( /dev/sdXX )或整體多虛擬磁碟使用情況:
驗證特定 Prism Central 大小支援的虛擬機器數量是否在限制範圍內(請從支援入口網站查閱適用於您的版本的 Prism Central 指南以了解限制)。聯絡Nutanix 支援。開啟支援案例時,將以下命令的輸出附加到該案例。
nutanix@pcvm$ allssh df -h nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check
Prism Central VM 主分割區( /home ):
檢查 NCC 輸出以確定哪個 Prism Central VM 使用率較高,然後執行以下操作:
- 登入 Prism Central VM。
- 使用cd指令將位置變更為 /home 分割區。
- 使用以下命令按大小列出目錄的內容:
nutanix@pcvm$ ls -al | sort -k5,5nr
檢查輸出中是否有任何可以刪除的大型未使用檔案。
- 執行下面的du指令列出每個檔案和子目錄的用法:
nutanix@pcvm$ sudo du -skxh * | sort -h
檢查大型子目錄的輸出。您可以對每個相關子目錄執行du命令,以進一步識別可以刪除的大型未使用檔案。
- 以下是/home的一些常見子目錄,其中可能存在大量未使用的檔案:
- /home/nutanix/software_downloads/ - 刪除除目前升級版本之外的所有舊版本。
- /home/nutanix/software_uncompressed/ - 刪除除目前升級版本之外的所有舊版本。
- /home/nutanix/data/cores - 刪除不再需要的舊堆疊追蹤。
- /home/nutanix/data/log_collector/ - 刪除 NCC-logs-2018-07-20-11111111111111-1032057545.tar 格式的舊 NCC 日誌。
- /home/nutanix/foundation/isos/ - 舊 ISO。
- /home/nutanix/foundation/tmp/ - 可以刪除的暫存檔案。
如果上述步驟無法解決問題,或者問題與本文前面介紹的場景之一相符,請按照下面概述的解決步驟進行操作。
Prism Central VM 根系統分割區( / ) 或CMSP 分割區( /dev/sdXX ):
考慮聘請Nutanix 支援。收集以下命令的輸出並將其附加到支援案例:
nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 / 2>/dev/null nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check
場景1
點這裡 顯示此場景中的詳細資訊:
作為解決方法,請刪除未註冊具有相應版本的叢集的目錄。
- 尋找所有已註冊 PE 的 AOS 版本。您可以從 Prism Central > 硬體 > 叢集 > AOS 版本列執行此操作。
- 列出/home/apache/ www /console/處的 PE apache 控制台目錄
nutanix@pcvm$ sudo ls -lrth /home/apache/ www /console/el7.3-release-*
- 如果存在與註冊的 PE 版本不對應的任何 PE apache 控制台目錄,則應該可以安全地清理它們。
如果您需要進一步的清理協助,請考慮聯絡Nutanix 支援。收集以下命令的輸出並將其附加到支援案例:
nutanix@pcvm$ ncli cluster info nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 /home/apache/ www 2>/dev/null nutanix@pcvm$ cat ~/config/upgrade.history nutanix@pcvm$ ls -lrth /home/apache/ www /console/el7.3-release-* nutanix@pcvm$ du -sh /home/apache/ www /console/el7.3-release-*
刪除舊的 sysstats 日誌
如果您已簽入所有常用位置但仍需要清理空間,您可以獲得客戶的許可來刪除舊的 sysstats 日誌。在繼續之前,請仔細檢查是否沒有未決的 RCA 的開放支援案例,因為這些資料可能尚未收集。
nutanix@PCVM:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K /home/nutanix/data/logs/ecr 28K /home/nutanix/data/logs/work 5.5M /home/nutanix/data/logs/kafka 127M /home/nutanix/data/logs/cassandra 162M /home/nutanix/data/logs/data_providers 368M /home/nutanix/data/logs/ikat_access_logs 4.2G /home/nutanix/data/logs/sysstats 11G /home/nutanix/data/logs nutanix@PCVM:~$
您可以使用下列命令刪除早於特定日期的 gzipped sysstats 日誌。在下面的範例中,您將從所有超過 3 天(或 4320 分鐘)的 PCVM 中刪除 sysstats 日誌。
nutanix@PCVM:~$ allssh "find ~/data/logs/sysstats -name '*.gz' -mmin +4320 -type f -exec rm '{}' +"
場景2
如果您的 Prism Central 實例符合此場景,請參閱KB-12707場景 #2並向Nutanix 支援提出案例,以取得從問題中復原的協助。
場景3
點這裡 顯示此場景中的詳細資訊:
此分割區 /home/nutanix/upgrade 旨在保存與升級相關的檔案。因此,可以刪除該目錄中的任何其他檔案。
df -h中列出的分區使用:
/dev/sde 30G 26G 4.1G 87%/home/nutanix/upgrade
要檢查磁碟的內容:
allssh "ls -latr /home/nutanix/upgrade/"
若要刪除不需要的文件,請使用以下命令:
rm -f /home/nutanix/upgrade/<file_to_be_removed>
請注意:如果您不小心刪除了此資料夾中的Prism Central 升級,請透過Web 瀏覽器登入Prism Central,前往Prism Central 設定--> 升級Prism Central --> 點擊軟體升級旁的“X” ,然後重新下載套件。
場景4
Nutanix 已意識到該問題。此問題的修復將在未來的 PC 版本中提供。如需解決方法,請聯絡Nutanix 支援。
場景5
如果您看到 catalina.out 日誌檔案消耗大量空間,請使用下列指令重新啟動 PCVM 上的 prism 服務。
點這裡 顯示此場景中的詳細資訊:
nutanix@PCVM:~$ genesis stop prism; cluster start
在極少數情況下,catalina.out 檔案在棱鏡引線翻轉後不會自動清理空間。要解決此問題,請在 prismleader 翻轉後手動將 catalina.out 日誌檔案清除:
nutanix@PCVM:~$ echo "" > ~/data/logs/catalina.out
對於單一實例 PCVM,請在 prism 服務停止時執行此更改,然後執行叢集啟動。
場景6
依照KB-6082清除 inode 使用情況。
相關文章
- Nutanix 入口網站中的原始文章: Nutanix 知識庫文章:5228
- Nutanix 登陸頁面