Bilan de santé NCC : pcvm_disk_usage_check

Cet article a été traduit automatiquement, veuillez cliquer ici pour afficher la version originale rédigée en anglais.

Description

Le contrôle de santé NCC pcvm_disk_usage_check vérifie que la quantité d'utilisation du disque ou de la partition système dans la machine virtuelle Prism Central (PC) est dans les limites.

Ce chèque comprend les parties suivantes :

Vérification de l'utilisation du disque de données individuel (ajouté dans NCC 3.5.1) :
- Si l'utilisation est supérieure à 75 % pendant plusieurs heures, un AVERTISSEMENT est renvoyé pour identifier le disque.
- Si l'utilisation est supérieure à 90 % pendant plusieurs heures, un FAIL est renvoyé pour identifier le disque.
Vérification de l'utilisation globale du disque de données (ajouté dans NCC 3.10.1) :
- Si l'utilisation globale est supérieure à 90 % pendant plusieurs heures, un AVERTISSEMENT est renvoyé.
Vérification de l'utilisation de la partition racine du système Prism Central VM (ajouté dans NCC 3.9.4). Renvoie uniquement le message FAIL si l'utilisation de la partition dépasse 95 %.
Vérification de l'utilisation de la partition d'accueil de la VM Prism Central (ajoutée dans NCC 3.9.4) :
- Si l'utilisation est supérieure à 75 %, un AVERTISSEMENT est renvoyé.
- Si l'utilisation est supérieure à 90 %, un FAIL est renvoyé.
Vérification de l'utilisation de la partition CMSP de Prism Central VM (ajoutée dans NCC 3.10.1) :
- Si l'utilisation est supérieure à 75 %, un AVERTISSEMENT est renvoyé.
- Si l'utilisation est supérieure à 90 %, un FAIL est renvoyé.
Vérification de l'utilisation de la partition de disque Prism Central VM Upgrade (ajouté dans NCC 4.6.0) :
- Si l'utilisation est supérieure à 70 %, un FAIL est renvoyé.
- Cette vérification s'exécute toutes les 5 minutes.
- S'il y a plus de 5 échecs (30 minutes), une alerte critique est déclenchée.

Remarque : Si vous exécutez LCM-2.6 ou LCM-2.6.0.1, la collecte de journaux LCM remplit le répertoire /home (voir KB-14671 pour une solution de contournement).

Exécution du contrôle NCC
Exécutez la vérification NCC dans le cadre des vérifications de santé NCC complètes.

Cliquez ici pour afficher les informations détaillées ci-dessous :

 nutanix@pcvm$ ncc health_checks run_all

Ou exécutez la vérification pcvm_disk_usage_check séparément.

 nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check

Vous pouvez également exécuter les vérifications à partir de la page Santé de la console Web Prism : sélectionnez Actions > Exécuter les vérifications . Sélectionnez Toutes les vérifications et cliquez sur Exécuter .

Cette vérification est programmée pour s'exécuter toutes les 5 minutes, par défaut.

Cette vérification générera une alerte après 5 échecs consécutifs à intervalles planifiés.

Exemples de résultats
Pour le statut : PASS

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check               [ PASS ] -------------------------------------------------------------------------------+ +---------------+ | State | Count | +---------------+ | Pass  | 1     | | Total | 1     | +---------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : WARN (sur le disque de données de la VM Prism Central, par exemple /dev/sdc1)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds warning limit 75 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : WARN (sur le MultiVDisk global de la VM Prism Central)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx overall MultiVDisk usage exceeds warning limit of 2321329924 KB. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : FAIL (sur le disque de données de la VM Prism Central, par exemple /dev/sdc1)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds critical limit 90 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : FAIL (sur la partition racine, c'est à dire /)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: PC VM root partition xxxx disk usage exceeds critical limit 95 % for disks: 97%. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------+ | State | Count | +-----------------+ | Fail | 1 | | Total | 1 | +-----------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : WARN (sur la partition d'accueil de Prism Central VM, c'est-à-dire /home)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds warning limit 75 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : FAIL (sur la partition d'accueil de Prism Central VM, c'est-à-dire /home)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds critical limit 90 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : WARN (sur la partition CMSP de Prism Central VM, c'est-à-dire /dev/sde)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Platform disk space usage in Prism Central VM xxxx exceeds 75% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : FAIL (sur la partition CMSP de Prism Central VM, c'est-à-dire /dev/sde)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx : FAIL: Platform disk space usage in Prism Central VM xxxx exceeds 90% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Pour l'état : FAIL (sur la partition de disque de mise à niveau de Prism Central VM, c'est-à-dire /home/nutanix/upgrade)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: Prism Central VM xxxx upgrade disk usage exceeds critical limit 70 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Remarque : toutes les commandes de cet article à exécuter sur le PC supposent que vous vous connectez à la machine virtuelle du PC via SSH.

Vérification de l'utilisation du disque dans la machine virtuelle PC
Voici un exemple de vérification de l'utilisation du disque sur une machine virtuelle PC.

Cliquez ici pour afficher l'exemple ci-dessous :

 nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on /dev/sdb1 9.8G 7.2G 2.2G 78% / devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 16K 7.9G 1% /dev/shm tmpfs 7.9G 428K 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb3 40G 4.4G 35G 12% /home /dev/sdc1 493G 431G 57G 69% /home/nutanix/data/stargate-storage/disks/NFS_1_0_450_823394be_0c7b_4f18_8335_71bae1bc6c82 tmpfs 1.6G 0 1.6G 0% /run/user/1000

La partition pour le disque de mise à niveau s'afficherait comme :

 /dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade

Message de sortie

Vérifier l'identité	101059
Description	Vérifiez que l'utilisation de l'espace disque sur la VM Prism Central est dans les limites.
Causes d'échec	Utilisation élevée du disque dans la machine virtuelle Prism Central.
Résolutions	Reportez-vous à l'article KB 5228 pour plus de détails.
Impact	Prism Central VM peut manquer d'espace de stockage pour stocker les données.
ID d'alerte	A101059
Titre de l'alerte	Utilisation élevée du disque de la VM Prism Central
Message d'alerte	L'utilisation du disque IP de la VM Prism Central dépasse la limite d'avertissement de x % pour les disques : disques . L'utilisation globale de l'adresse IP MultiVDisk de Prism Central VM dépasse la limite d'avertissement de 2 321 329 924 Ko. L'utilisation du disque IP de la machine virtuelle Prism Central dépasse la limite critique de x % pour les disques : disques .

Vérifier l'identité	200316
Description	Vérifie si l'utilisation de la partition racine du système Prism Central se situe dans les limites du seuil pour garantir des opérations ininterrompues.
Causes d'échec	Augmentation de l’utilisation de la partition racine du système Prism Central VM en raison d’une journalisation excessive ou d’une opération de maintenance incomplète.
Résolutions	Réduisez l’utilisation de la partition racine du système Prism Central VM en supprimant tous les fichiers temporaires ou inutiles connus. Reportez-vous à l'article KB 5228 pour plus de détails.
Impact	Si la partition racine du système Prism Central VM est fortement utilisée, certaines opérations de maintenance, telles que les mises à niveau, peuvent être impactées. Si la partition racine du système Prism Central VM est utilisée à 100 %, les services peuvent s'arrêter et avoir un impact sur les fonctions de gestion du cluster Prism Central.
ID d'alerte	A200316
Titre de l'alerte	Utilisation élevée de l'espace de partition racine du système de machine virtuelle Prism Central
Message d'alerte	Utilisation de l'espace disque pour la partition racine mount_path sur l'entité - l'adresse_ip a dépassé le seuil %.

Vérifier l'identité	200317
Description	Vérifie si l'utilisation de la partition d'accueil de Prism Central se situe dans les limites du seuil pour garantir des opérations ininterrompues.
Causes d'échec	Utilisation accrue de la partition d’accueil de la machine virtuelle Prism Central en raison d’une journalisation excessive ou d’une opération de maintenance incomplète.
Résolutions	Réduisez l’utilisation de la partition d’accueil de Prism Central VM en supprimant tous les fichiers temporaires ou inutiles connus. Reportez-vous à l'article KB 5228 pour plus de détails.
Impact	Si la partition d'accueil de Prism Central VM est fortement utilisée, certaines opérations de maintenance, telles que les mises à niveau, peuvent être impactées. Si la partition d'accueil de Prism Central VM est utilisée à 100 %, les services peuvent s'arrêter et avoir un impact sur la disponibilité du stockage du cluster.
ID d'alerte	A200317
Titre de l'alerte	Utilisation élevée du disque de la partition d'accueil de la VM Prism Central
Message d'alerte	L'utilisation du disque de la partition d'accueil IP de la machine virtuelle Prism Central dépasse la limite d'avertissement de x %. L'utilisation du disque de la partition d'accueil IP de la machine virtuelle Prism Central dépasse la limite critique de x %.

Vérifier l'identité	200328
Description	Vérifiez que l'utilisation de l'espace disque de la plateforme sur la machine virtuelle Prism Central est dans les limites.
Causes d'échec	Utilisation élevée du disque dans la machine virtuelle Prism Central.
Résolutions	Reportez-vous à l'article KB 5228 pour plus de détails.
Impact	Prism Central VM peut manquer d'espace de stockage pour stocker les données.
ID d'alerte	A200328
Titre de l'alerte	Utilisation élevée de l'espace disque de la plate-forme Prism Central VM
Titre intelligent d'alerte	Utilisation élevée de l'espace disque de la plate-forme Prism Central VM svm_ip
Message d'alerte	L'utilisation de l'espace disque de la plate-forme dans Prism Central VM svm_ip dépasse pourcentage_exceed % pour le(s) disque(s) : disk_paths .

Vérifier l'identité	200334
Description	Vérifie si l'utilisation du disque de mise à niveau de Prism Central se situe dans les limites du seuil pour garantir des opérations de mise à niveau ininterrompues.
Causes d'échec	Augmentation de l'utilisation du disque de mise à niveau de la VM Prism Central en raison de la présence de plusieurs fichiers d'installation de Prism Central
Résolutions	Réduisez l’utilisation de la partition de mise à niveau de Prism Central VM en supprimant les fichiers du programme d’installation de Prism Central qui ne sont pas nécessaires. Reportez-vous à l'article KB 5228 pour plus de détails.
Impact	Si le disque de mise à niveau de Prism Central VM est fortement utilisé, la mise à niveau de Prism Central échouera en raison du manque d'espace sur le disque de mise à niveau.
ID d'alerte	A200334
Titre de l'alerte	Utilisation du disque de mise à niveau de la VM Prism Central
Message d'alerte	L'utilisation du disque de mise à niveau de Prism Central VM <IP> dépasse la limite critique x %

Scénarios qui déclenchent la vérification pcvm_disk_usage Warn/Fail sur la partition /home

Cliquez ici pour afficher des informations détaillées sur cette étape :

Scénario 1
Le répertoire /home sur les instances PC de longue durée peut atteindre sa limite maximale car l'ancien code Prism n'est pas nettoyé :

 nutanix@pcvm$ cat ~/config/upgrade.history Thu, 17 Dec 2020 08:51:43 el7.3-release-euphrates-5.19-stable-b2ab98294375c3f24f4d813b83ffcb43d85ebcc1 Tue, 19 Jan 2021 11:53:43 el7.3-release-euphrates-5.19-stable-aadf03fd084cb00f0414f84549b7ebbe9691a984 Wed, 24 Feb 2021 08:53:13 el7.3-release-euphrates-5.19-stable-ddf5fcc232b693ae965280668b10d0337ce99281 Mon, 19 Apr 2021 07:03:39 el7.3-release-euphrates-5.19-stable-6d6cec7de63c8fd117eeb59162031d03c2faf548 Mon, 26 Apr 2021 07:00:07 el7.3-release-euphrates-5.19-stable-3927829dad6a930e67f2f4a47e752df5a8f6c64d Tue, 01 Jun 2021 10:15:14 el7.3-release-euphrates-5.19-stable-db974bded2c0cd1037288ca7aa9aef6f5e441222 Mon, 14 Jun 2021 09:47:29 el7.3-release-fraser-6.0-stable-a48467616ee7c603e3cee3174779cf24bea227cb Thu, 01 Jul 2021 11:52:24 el7.3-release-fraser-6.0-stable-0601c1f41bad35bf4afe05da443947d34927c6ae Thu, 05 Aug 2021 09:16:28 el7.3-release-fraser-6.0-stable-b9dbe4a0b0876cffa23d268d8ddc7f272fa4a166 Wed, 01 Sep 2021 07:44:46 el7.3-release-fraser-6.0-stable-f948d198de58b1b1e511431dbef0b34d20c82739 nutanix@pcvm$ sudo du -sh /home/apache/ www /console/el7.3-release-* 304M el7.3-release-euphrates-5.18.1.1-stable-4546d2908cb8495b316deb45de63b7f5e52541a1 541M el7.3-release-euphrates-5.18.1.2-stable-b1b096696c0c034570545912a00d39746e901f36 675M el7.3-release-euphrates-5.19.1.5-stable-0f9e00f661436fef1af18a094089744f34ccd8c0 1.1G el7.3-release-euphrates-5.19.1.6-stable-a1bbd4f054f86b9d445bf2153b93c5d8d920cff7 629M el7.3-release-euphrates-5.19.1-stable-6edca74801c9db2ff2003780084bb12aa6aa29f4 694M el7.3-release-euphrates-5.19.2-stable-8e7da6324cbe5c34564ec51615b10a7737c6782a 1.1G el7.3-release-euphrates-5.19-stable-5282152e02f3ede70f0957217a62dc436c60b454 329M el7.3-release-euphrates-5.20.1.1-stable-726ea8f7dc4bca156d3e3f63cd7982eecb70c8cb 2.1G el7.3-release-fraser-6.0.1.1-stable-d9f94c47b63e3eb4179dd7a6e16202d5856581a6

Le problème a été résolu et corrigé dans les versions : pc.2022.1, pc.2022.4, pc.2021.9.0.5 et versions ultérieures. Pour plus de détails et la solution de contournement, veuillez vous référer à la section solution correspondante.

Suppression des anciens journaux sysstats
Si vous avez vérifié tous les emplacements habituels mais que vous devez encore libérer de l'espace, vous pouvez obtenir l'autorisation du client pour supprimer les anciens journaux sysstats. Vérifiez à nouveau qu'il n'y a pas de dossiers d'assistance ouverts avec des RCA en attente avant de continuer, car ces données n'ont peut-être pas encore été collectées.

 nutanix@pcvm:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K    /home/nutanix/data/logs/ecr 28K     /home/nutanix/data/logs/work 5.5M    /home/nutanix/data/logs/kafka 127M    /home/nutanix/data/logs/cassandra 162M    /home/nutanix/data/logs/data_providers 368M    /home/nutanix/data/logs/ikat_access_logs 4.2G    /home/nutanix/data/logs/sysstats 11G     /home/nutanix/data/logs nutanix@pcvm:~$

Scénario 2
Les journaux Hyperkube (journaux kublet) ne sont pas nettoyés après l'activation de CMSP/microservices sur Prism Central.

Si Cluster Maintenance Utilities (CMU) a été mis à jour vers la version 2.0.3 à l'aide de LCM, la version Scavenger incluse n'a pas la capacité de nettoyer certains journaux liés aux microservices CMSP. En raison de ce problème, les utilisateurs peuvent constater que les services Prism Central ne démarrent pas ou qu'ils ne peuvent pas se connecter à l'interface utilisateur du PC. Ce problème remplira d'abord le répertoire /home/nutanix/data/sys-storage/NFS_.../ , après quoi les journaux kubelet commenceront à remplir la partition racine dans le dossier /tmp.

 nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 34G 0 34G 0% /dev tmpfs 34G 52K 34G 1% /dev/shm tmpfs 34G 3.4M 34G 1% /run tmpfs 34G 0 34G 0% /sys/fs/cgroup /dev/sdb2 9.8G 9.8G 0G 100% / /dev/sdb3 50G 33G 16G 68% /home tmpfs 6.7G 0 6.7G 0% /run/user/1000 /dev/sdf1 2.5T 21G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977956_4f2835fa_ab29_41c5_9110_483bff268ca0 /dev/sdg1 2.5T 13G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977958_10aa3f76_65a5_4fa6_8c88_7c70a4504f29 /dev/sde1 2.5T 20G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977954_df3a5816_b14b_4098_9b58_d90d670781a1 /dev/sdc1 2.5T 12G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977948_1bd3cd0d_de69_4a98_a18d_6049945e261b /dev/sdd 98G 88G 5.4G 100% /home/nutanix/data/kafka/disks/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c

Nous pouvons constater que les journaux hyperkube.ntnx * sont générés et ne tournent pas correctement lorsque CMSP est activé. Vérifiez si le répertoire /home/nutanix/data/sys-storage/NFS.../kubelet/ est excessivement rempli de ces journaux.

 nutanix@pcvm:~$ du -hsx /home/nutanix/data/sys-storage/NFS*/kubelet/ 97.0G /home/nutanix/data/sys-storage/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c/kubelet/ nutanix@pcvm:~$ ls -l /home/nutanix/data/sys-storage/NFS_4_0_7036_6578653c_8a38_4af8_9649_42e7939f3656/kubelet/kubelet* | wc -l 98

Lorsque nous travaillons comme prévu, nous devrions voir moins de 10 Go utilisés dans ce dossier kubelet, et le nombre de fichiers pour kubelet* serait inférieur à ~ 15.

Nous pouvons également voir des journaux kubelet similaires remplir de l'espace dans /tmp, une fois que l'espace dans le répertoire /home/nutanix/data/sys-storage/NFS... a été épuisé.

 nutanix@pcvm:~$ sudo du -hsx /tmp 2.8G /tmp nutanix@pcvm:~/tmp$ sudo ls -larth /tmp/ total 2.8G ***truncated*** -rw-r--r--. 1 root root 109K Jun 23 05:49 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-054920.15123 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055012.17214 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055011.17214 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055038.18217 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055038.18217 -rw-r--r--. 1 root root 109K Jun 23 05:51 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055106.19499 -rw-r--r--. 1 root root 1.8G Jun 24 03:20 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055151.21218 -rw-r--r--. 1 root root 60K Jun 24 15:06 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230623-055155.21218 -rw-r--r--. 1 root root 5.8M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055152.21218 -rw-r--r--. 1 root root 990M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-032057.21218 -rw-r--r--. 1 root root 103K Jun 24 23:59 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-235940.170513 -rw-r--r--. 1 root root 3.3K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-000123.175052 -rw-r--r--. 1 root root 6.7K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-000120.175052 -rw-r--r--. 1 root root 2.8M Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-000120.175052 lrwxrwxrwx. 1 root root 67 Jun 25 04:01 kubelet.INFO -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 lrwxrwxrwx. 1 root root 70 Jun 25 04:01 kubelet.WARNING -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 lrwxrwxrwx. 1 root root 68 Jun 25 04:01 kubelet.ERROR -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 25K Jun 25 04:02 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 38K Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 -rw-r--r--. 1 root root 6.0M Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 -rw-------. 1 nutanix nutanix 0 Jun 26 08:37 .nstat.u1000 -rw-r-----. 1 nutanix nutanix 0 Jun 26 08:38 lcm_metrics_uploader_lock -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 lazan_pc_greenlet_stack_dump -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 uhura_greenlet_stack_dump drwxr-xr-x. 19 root root 4.0K Jun 26 08:44 .. drwx------. 2 nutanix nutanix 4.0K Jun 26 09:24 hsperfdata_nutanix drwxrwxrwt. 14 root root 4.0K Jun 26 09:35 .

Scénario 3
À partir de PC.2022.6 : un disque dédié de 30 Go est créé et monté pour les mises à niveau du PC. Ce disque virtuel sera utilisé pour télécharger et extraire les fichiers binaires de mise à niveau à partir de mises à niveau consécutives. Si le disque de mise à niveau de Prism Central VM est fortement utilisé, la mise à niveau de Prism Central échouera en raison du manque d'espace sur le disque de mise à niveau.

 nutanix@NTNX-PCVM:$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 13G 0 13G 0% /dev tmpfs 13G 40K 13G 1% /dev/shm tmpfs 13G 2.6M 13G 1% /run tmpfs 13G 0 13G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.2G 2.5G 75% / /dev/sdb3 50G 14G 36G 28% /home /dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade /dev/sdc1 492G 147M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_271_960db4d2_45e7_4ef7_92bd_bdcd7e0b6aaf tmpfs 2.6G 0 2.6G 0% /run/user/1000

Remarque : Dans le cas où plusieurs services sont activés sur Prism Central, tels que msp, karbon, calm, flow et object, nous verrions une utilisation de /home élevée car chacun des services générera plusieurs journaux et fichiers de configuration. Les ingénieurs de Nutanix travaillent constamment à l’amélioration de l’utilisation de /home. Si aucun des scénarios ci-dessus ne correspond et que cela affecte la mise à niveau de Prism Central, engagez l'équipe d'assistance de Nutanix pour vous aider à nettoyer manuellement /home en supprimant les journaux.

Scénario 4
En raison du problème de rotation des fichiers journaux, l'utilisation du répertoire des journaux Adonis est élevée. L'utilisation du répertoire de journaux ne doit pas dépasser 1 Go. Pour les déploiements Scale-Out Prism Central, vérifiez l'utilisation des fichiers sur chacune des VM Prism Central :

 nutanix@pcvm:~/data/logs$ sudo du -h /home/nutanix/adonis/logs 6.1G /home/nutanix/adonis/logs/access 19G /home/nutanix

Scénario 5
Dans certains cas, catalina.out peut consommer une grande quantité d'espace sur la VM Prism Central.

Connectez-vous en SSH à Prism Central et vérifiez si /home/nutanix/data/logs/catalina.out consomme une énorme quantité d'espace :

 nutanix@PCVM:~$ allssh du -h /home/nutanix/data/logs/catalina.out

Scénario 6
Pour les PC 2022.9 et versions ultérieures, une utilisation élevée des inodes dans le PCVM entraîne une utilisation élevée de la partition racine.

Connectez-vous en SSH au prism central et exécutez les commandes suivantes pour vérifier l'utilisation de l'inode :

 nutanix@PCVM:~$ allssh df -i /

Solution

Si la vérification signale un état WARN ou FAIL, l'utilisation du disque est supérieure au seuil et nécessite une enquête. Généralement, l'utilisation de l'espace peut être interrogée à l'aide de df -h . Le résultat ci-dessous montre les points de montage comme suit :

/dev/sdb1 est la partition racine
/dev/sdb3 est la partition personnelle
/dev/sdc1 est la partition du disque de données

 nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 44K 7.9G 1% /dev/shm tmpfs 7.9G 6.1M 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.4G 2.3G 77% / /dev/sdb3 50G 8.5G 41G 18% /home /dev/sdc1 492G 150M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_267_5a298323_3c9f_4a6f_a265_10c4c1e6593e tmpfs 1.6G 0 1.6G 0% /run/user/1000 /dev/sde 98G 401M 93G 1% /home/nutanix/data/sys-storage/NFS_1_0_264_1f5cda9a_2b3f_4f49_b348_baeb0ae338b8 tmpfs 1.6G 0 1.6G 0% /run/user/0

Utilisation du disque de données ( /dev/sdXX ) ou utilisation globale du multidisque :

Vérifiez que le nombre de machines virtuelles prises en charge pour la taille particulière de Prism Central est dans la limite (consultez le guide Prism Central de votre version sur le portail de support pour connaître les limites). Contactez l'assistance Nutanix . Lors de l’ouverture d’un dossier de support, attachez le résultat des commandes suivantes au dossier.

 nutanix@pcvm$ allssh df -h nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check

Partition d'accueil de la VM Prism Central ( /home ) :

Inspectez la sortie NCC pour déterminer quelle machine virtuelle Prism Central est fortement utilisée, puis effectuez les opérations suivantes :

Connectez-vous à la machine virtuelle Prism Central.
Utilisez la commande cd pour modifier l'emplacement de la partition /home.
Répertoriez le contenu du répertoire par taille à l'aide de la commande ci-dessous :
```
 nutanix@pcvm$ ls -al | sort -k5,5nr
```
Examinez la sortie pour tous les gros fichiers inutilisés qui peuvent être supprimés.
Exécutez la commande du ci-dessous pour répertorier l'utilisation de chaque fichier et sous-répertoire :
```
 nutanix@pcvm$ sudo du -skxh * | sort -h
```
Examinez la sortie de grands sous-répertoires. Vous pouvez exécuter la commande du pour chaque sous-répertoire en question afin d'identifier davantage les gros fichiers inutilisés pouvant être supprimés.
Vous trouverez ci-dessous quelques sous-répertoires courants de /home dans lesquels de gros fichiers inutilisés sont susceptibles d'exister :
- /home/nutanix/software_downloads/ - supprimez toutes les anciennes versions autres que les versions que vous mettez actuellement à niveau.
- /home/nutanix/software_uncompressed/ - supprimez toutes les anciennes versions autres que les versions que vous mettez actuellement à niveau.
- /home/nutanix/data/cores - supprime les anciennes traces de pile qui ne sont plus nécessaires.
- /home/nutanix/data/log_collector/ - supprime les anciens journaux NCC au format NCC-logs-2018-07-20-11111111111111-1032057545.tar.
- /home/nutanix/foundation/isos/ - anciennes ISO.
- /home/nutanix/foundation/tmp/ - fichiers temporaires pouvant être supprimés.

Si les étapes ci-dessus ne résolvent pas le problème ou si le problème correspond à l'un des scénarios présentés plus haut dans cet article, suivez les étapes de solution décrites ci-dessous.

Partition du système racine de la VM Prism Central ( / ) ou partition CMSP ( /dev/sdXX ) :
Pensez à faire appel au support Nutanix . Rassemblez le résultat des commandes ci-dessous et joignez-le au dossier de support :

 nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 / 2>/dev/null nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check

Scénario 1

Cliquez ici pour afficher des informations détaillées dans ce scénario :

Le problème a été résolu et corrigé dans les versions : pc.2022.1, pc.2022.4, pc.2021.9.0.5 et versions ultérieures.
Pour contourner ce problème, supprimez les répertoires dans lesquels aucun cluster n'est enregistré avec la version correspondante.

Recherchez les versions AOS de tous les PE enregistrés. Vous pouvez le faire depuis Prism Central > Matériel > Clusters > colonne Version AOS.
Répertoriez les répertoires de la console PE Apache dans /home/apache/ www /console/

 nutanix@pcvm$ sudo ls -lrth /home/apache/ www /console/el7.3-release-*

Si des répertoires de console PE Apache qui ne correspondent pas aux versions PE enregistrées sont présents, ils devraient pouvoir être nettoyés en toute sécurité.

Si vous avez besoin d'une aide supplémentaire pour le nettoyage, envisagez de faire appel au support Nutanix . Rassemblez le résultat des commandes ci-dessous et joignez-le au dossier de support :

 nutanix@pcvm$ ncli cluster info nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 /home/apache/ www 2>/dev/null nutanix@pcvm$ cat ~/config/upgrade.history nutanix@pcvm$ ls -lrth /home/apache/ www /console/el7.3-release-* nutanix@pcvm$ du -sh /home/apache/ www /console/el7.3-release-*

 nutanix@PCVM:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K    /home/nutanix/data/logs/ecr 28K     /home/nutanix/data/logs/work 5.5M    /home/nutanix/data/logs/kafka 127M    /home/nutanix/data/logs/cassandra 162M    /home/nutanix/data/logs/data_providers 368M    /home/nutanix/data/logs/ikat_access_logs 4.2G    /home/nutanix/data/logs/sysstats 11G     /home/nutanix/data/logs nutanix@PCVM:~$

Vous pouvez utiliser la commande suivante pour supprimer les journaux sysstats gzippés antérieurs à une certaine date. Dans l'exemple ci-dessous, vous supprimerez les journaux sysstats de toutes les PCVM datant de plus de 3 jours (ou 4 320 minutes).

 nutanix@PCVM:~$ allssh "find ~/data/logs/sysstats -name '*.gz' -mmin +4320 -type f -exec rm '{}' +"

Scénario 2
Si votre instance Prism Central correspond à ce scénario, reportez-vous au scénario KB-12707 n°2 et ouvrez un dossier auprès du support Nutanix pour obtenir de l'aide pour la récupération du problème.

Scénario 3

Cliquez ici pour afficher des informations détaillées dans ce scénario :

L'augmentation de l'utilisation du disque de mise à niveau de la machine virtuelle Prism Central est due à plusieurs fichiers du programme d'installation de Prism Central. Réduisez l’utilisation de la partition de mise à niveau de Prism Central VM en supprimant les fichiers du programme d’installation de Prism Central qui ne sont pas nécessaires.
Cette partition /home/nutanix/upgrade est conçue pour contenir les fichiers liés à la mise à niveau. Ainsi, tout autre fichier de ce répertoire peut être supprimé.

L'utilisation de la partition comme indiqué dans df -h :

 /dev/sde 30G 26G 4.1G 87%/home/nutanix/upgrade

Pour vérifier le contenu du disque :

 allssh "ls -latr /home/nutanix/upgrade/"

Pour supprimer les fichiers indésirables, utilisez la commande ci-dessous :

 rm -f /home/nutanix/upgrade/<file_to_be_removed>

Remarque : Si vous supprimez accidentellement la mise à niveau de Prism Central dans ce dossier, connectez-vous à Prism Central via un navigateur Web, accédez à Paramètres de Prism Central --> Mettre à niveau Prism Central --> Cliquez sur le "X" à côté de la mise à niveau du logiciel et Téléchargez à nouveau le package.

Scénario 4
Nutanix est conscient du problème. Le correctif de ce problème sera disponible dans une prochaine version PC. Pour une solution de contournement, contactez le support Nutanix .

Scénario 5
Si vous constatez que le fichier journal catalina.out consomme beaucoup d'espace, utilisez la commande suivante pour redémarrer le service prism sur le PCVM.

Cliquez ici pour afficher des informations détaillées dans ce scénario :

 nutanix@PCVM:~$ genesis stop prism; cluster start

Dans de rares cas, le fichier catalina.out ne libère pas automatiquement de l'espace après le retournement du leader du prisme. Pour résoudre ce problème, mettez manuellement à zéro le fichier journal catalina.out après le retournement du leader du prisme :

 nutanix@PCVM:~$ echo "" > ~/data/logs/catalina.out

Pour les PCVM à instance unique, effectuez cette modification pendant que le service prism est arrêté, puis exécutez un démarrage de cluster.

Scénario 6

Suivez KB-6082 pour effacer l’utilisation de l’inode.