Verificação de integridade do NCC: pcvm_disk_usage_check

Este é um artigo traduzido automaticamente, por favor clique aqui para ver a versão original em inglês.

Descrição

A verificação de integridade do NCC pcvm_disk_usage_check verifica se a quantidade de uso de disco ou partição do sistema na VM do Prism Central (PC) está dentro dos limites.

Esta verificação tem as seguintes partes:

Verificando o uso individual do disco de dados (adicionado no NCC 3.5.1):
- Se o uso for superior a 75% por várias horas, um AVISO será retornado para identificar o disco.
- Se o uso for superior a 90% por várias horas, uma FAIL será retornada para identificar o disco.
Verificando o uso geral do disco de dados (adicionado no NCC 3.10.1):
- Se o uso geral for superior a 90% durante várias horas, um AVISO será retornado.
Verificando o uso da partição raiz do sistema Prism Central VM (adicionado no NCC 3.9.4). Retorna apenas a mensagem FAIL se o uso da partição exceder 95%.
Verificando o uso da partição inicial do Prism Central VM (adicionado no NCC 3.9.4):
- Se o uso for superior a 75%, um AVISO será retornado.
- Se o uso for superior a 90%, será retornado um FAIL.
Verificando o uso da partição Prism Central VM CMSP (adicionado no NCC 3.10.1):
- Se o uso for superior a 75%, um AVISO será retornado.
- Se o uso for superior a 90%, será retornado um FAIL.
Verificando o uso da partição de disco do Prism Central VM Upgrade (adicionado no NCC 4.6.0):
- Se o uso for superior a 70%, uma FALHA será retornada.
- Esta verificação é executada a cada 5 minutos.
- Se houver mais de 5 falhas (30 minutos), um alerta crítico será gerado.

Nota : Se você estiver executando o LCM-2.6 ou LCM-2.6.0.1, a coleção de logs do LCM preenche o diretório /home, consulte KB-14671 para obter uma solução alternativa.

Executando a verificação NCC
Execute a verificação do NCC como parte das verificações completas de integridade do NCC.

Clique aqui para exibir informações detalhadas abaixo:

 nutanix@pcvm$ ncc health_checks run_all

Ou execute a verificação pcvm_disk_usage_check separadamente.

 nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check

Você também pode executar as verificações na página Prism Web Console Health: selecione Actions > Run Checks . Selecione Todas as verificações e clique em Executar .

Essa verificação está programada para ser executada a cada 5 minutos, por padrão.

Esta verificação gerará um alerta após 5 falhas consecutivas em intervalos programados.

Exemplos de resultados
Para status: PASSAR

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check               [ PASS ] -------------------------------------------------------------------------------+ +---------------+ | State | Count | +---------------+ | Pass  | 1     | | Total | 1     | +---------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: WARN (no disco de dados da VM do Prism Central, por exemplo, /dev/sdc1)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds warning limit 75 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: WARN (no MultiVDisk geral da VM Prism Central)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx overall MultiVDisk usage exceeds warning limit of 2321329924 KB. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: FAIL (no disco de dados da VM do Prism Central, por exemplo, /dev/sdc1)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx disk usage exceeds critical limit 90 % for disks: /dev/sdc1(/home/nutanix/data/stargate-storage/disks/NFS_2_0_283_5a853328_a7fa_45a4_b3d2_6f91cffaa653). Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para Status: FAIL (na partição raiz, ou seja, /)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: PC VM root partition xxxx disk usage exceeds critical limit 95 % for disks: 97%. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------+ | State | Count | +-----------------+ | Fail | 1 | | Total | 1 | +-----------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para Status: WARN (na partição inicial do Prism Central VM, ou seja, /home)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds warning limit 75 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: FAIL (na partição inicial do Prism Central VM, ou seja, /home)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Prism Central VM xxxx home partition disk usage exceeds critical limit 90 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: WARN (na partição Prism Central VM CMSP, ou seja, /dev/sde)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ WARN ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx: WARN: Platform disk space usage in Prism Central VM xxxx exceeds 75% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Warning | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: FAIL (na partição Prism Central VM CMSP, ou seja, /dev/sde)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -------------------------------------------------------------------------------+ Detailed information for pcvm_disk_usage_check: Node xxxx : FAIL: Platform disk space usage in Prism Central VM xxxx exceeds 90% for disk(s): /dev/sde Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list= xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Para status: FAIL (na partição de disco de atualização do Prism Central VM, ou seja, /home/nutanix/upgrade)

 Running : health_checks system_checks pcvm_disk_usage_check [==================================================] 100% /health_checks/system_checks/pcvm_disk_usage_check [ FAIL ] -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+Detailed information for pcvm_disk_usage_check: Node xxxx: FAIL: Prism Central VM xxxx upgrade disk usage exceeds critical limit 70 %. Refer to KB 5228 (http://portal.nutanix.com/kb/5228) for details on pcvm_disk_usage_check or Recheck with: ncc health_checks system_checks pcvm_disk_usage_check --cvm_list=xxxx +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Nota: Todos os comandos neste artigo a serem executados no PC pressupõem que você faça login na VM do PC via SSH.

Verificando o uso do disco na VM do PC
A seguir está um exemplo de como verificar o uso do disco em uma VM de PC.

Clique aqui para exibir o exemplo abaixo:

 nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on /dev/sdb1 9.8G 7.2G 2.2G 78% / devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 16K 7.9G 1% /dev/shm tmpfs 7.9G 428K 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb3 40G 4.4G 35G 12% /home /dev/sdc1 493G 431G 57G 69% /home/nutanix/data/stargate-storage/disks/NFS_1_0_450_823394be_0c7b_4f18_8335_71bae1bc6c82 tmpfs 1.6G 0 1.6G 0% /run/user/1000

A partição do disco de atualização seria semelhante a:

 /dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade

Mensagens de saída

Verifique a identificação	101059
Descrição	Verifique se o uso do espaço em disco na VM do Prism Central está dentro dos limites.
Causas de falha	Alto uso de disco na VM Prism Central.
Resoluções	Consulte KB 5228 para obter mais detalhes.
Impacto	O Prism Central VM pode ficar sem espaço de armazenamento para armazenar dados.
ID do alerta	A101059
Título do alerta	Alto uso do disco da VM do Prism Central
Mensagem de alerta	O uso do disco IP do Prism Central VM excede o limite de aviso x % para discos: disks . O uso geral do MultiVDisk do Prism Central VM IP excede o limite de aviso de 2321329924 KB O uso do disco IP da VM Prism Central excede o limite crítico x % para discos: disks .

Verifique a identificação	200316
Descrição	Verifica se o uso da partição raiz do sistema Prism Central está dentro do limite para garantir operações ininterruptas.
Causas de falha	Aumento do uso da partição raiz do sistema Prism Central VM devido ao registro excessivo ou operação de manutenção incompleta.
Resoluções	Reduza o uso da partição raiz do sistema Prism Central VM removendo quaisquer arquivos temporários ou desnecessários conhecidos. Consulte KB 5228 para obter mais detalhes.
Impacto	Se a partição raiz do sistema Prism Central VM for altamente utilizada, certas operações de manutenção, como atualizações, poderão ser afetadas. Se a partição raiz do sistema Prism Central VM for 100% utilizada, os serviços poderão parar e impactar as funções de gerenciamento de cluster do Prism Central.
ID do alerta	A200316
Título do alerta	Uso alto do espaço da partição raiz do sistema Prism Central VM
Mensagem de alerta	O uso de espaço em disco para a partição raiz mount_path na entidade - ip_address excedeu o limite %.

Verifique a identificação	200317
Descrição	Verifica se o uso da partição inicial do Prism Central está dentro do limite para garantir operações ininterruptas.
Causas de falha	Aumento do uso da partição inicial do Prism Central VM devido ao registro excessivo ou operação de manutenção incompleta.
Resoluções	Reduza o uso da partição inicial do Prism Central VM removendo quaisquer arquivos temporários ou desnecessários conhecidos. Consulte KB 5228 para obter mais detalhes.
Impacto	Se a partição inicial da VM do Prism Central for altamente utilizada, certas operações de manutenção, como atualizações, poderão ser afetadas. Se a partição inicial da VM do Prism Central for 100% utilizada, os serviços poderão parar e afetar a disponibilidade de armazenamento do cluster.
ID do alerta	A200317
Título do alerta	Alto uso do disco da partição inicial do Prism Central VM
Mensagem de alerta	O uso do disco da partição inicial IP do Prism Central VM excede o limite de aviso x %. O uso do disco da partição inicial IP do Prism Central VM excede o limite crítico x %.

Verifique a identificação	200328
Descrição	Verifique se o uso do espaço em disco da plataforma na VM do Prism Central está dentro dos limites.
Causas de falha	Alto uso de disco na VM Prism Central.
Resoluções	Consulte KB 5228 para obter mais detalhes.
Impacto	O Prism Central VM pode ficar sem espaço de armazenamento para armazenar dados.
ID do alerta	A200328
Título do alerta	Alto uso de espaço em disco da plataforma Prism Central VM
Título inteligente de alerta	Alto uso de espaço em disco da plataforma Prism Central VM svm_ip
Mensagem de alerta	O uso de espaço em disco da plataforma no Prism Central VM svm_ip excede percentage_exceed % para disco(s): disk_paths .

Verifique a identificação	200334
Descrição	Verifica se o uso do disco de atualização do Prism Central está dentro do limite para garantir operações de atualização ininterruptas.
Causas de falha	Aumento do uso do disco de atualização da VM do Prism Central devido à presença de vários arquivos do Prism Central Installer
Resoluções	Reduza o uso da partição de atualização do Prism Central VM removendo os arquivos do Prism Central Installer que não são necessários. Consulte KB 5228 para obter mais detalhes.
Impacto	Se o disco de atualização do Prism Central VM for altamente utilizado, o upgrade do Prism Central falhará devido à falta de espaço no disco de atualização.
ID do alerta	A200334
Título do alerta	Uso do disco de atualização do Prism Central VM
Mensagem de alerta	O uso do disco de atualização do Prism Central VM <IP> excede o limite crítico x%

Cenários que acionam a verificação pcvm_disk_usage Avisar/Falha na partição /home

Clique aqui para exibir informações detalhadas nesta etapa:

Cenário 1
O diretório /home em instâncias de PC de longa execução pode chegar perto de seu limite máximo, pois o código Prism mais antigo não é limpo:

 nutanix@pcvm$ cat ~/config/upgrade.history Thu, 17 Dec 2020 08:51:43 el7.3-release-euphrates-5.19-stable-b2ab98294375c3f24f4d813b83ffcb43d85ebcc1 Tue, 19 Jan 2021 11:53:43 el7.3-release-euphrates-5.19-stable-aadf03fd084cb00f0414f84549b7ebbe9691a984 Wed, 24 Feb 2021 08:53:13 el7.3-release-euphrates-5.19-stable-ddf5fcc232b693ae965280668b10d0337ce99281 Mon, 19 Apr 2021 07:03:39 el7.3-release-euphrates-5.19-stable-6d6cec7de63c8fd117eeb59162031d03c2faf548 Mon, 26 Apr 2021 07:00:07 el7.3-release-euphrates-5.19-stable-3927829dad6a930e67f2f4a47e752df5a8f6c64d Tue, 01 Jun 2021 10:15:14 el7.3-release-euphrates-5.19-stable-db974bded2c0cd1037288ca7aa9aef6f5e441222 Mon, 14 Jun 2021 09:47:29 el7.3-release-fraser-6.0-stable-a48467616ee7c603e3cee3174779cf24bea227cb Thu, 01 Jul 2021 11:52:24 el7.3-release-fraser-6.0-stable-0601c1f41bad35bf4afe05da443947d34927c6ae Thu, 05 Aug 2021 09:16:28 el7.3-release-fraser-6.0-stable-b9dbe4a0b0876cffa23d268d8ddc7f272fa4a166 Wed, 01 Sep 2021 07:44:46 el7.3-release-fraser-6.0-stable-f948d198de58b1b1e511431dbef0b34d20c82739 nutanix@pcvm$ sudo du -sh /home/apache/ www /console/el7.3-release-* 304M el7.3-release-euphrates-5.18.1.1-stable-4546d2908cb8495b316deb45de63b7f5e52541a1 541M el7.3-release-euphrates-5.18.1.2-stable-b1b096696c0c034570545912a00d39746e901f36 675M el7.3-release-euphrates-5.19.1.5-stable-0f9e00f661436fef1af18a094089744f34ccd8c0 1.1G el7.3-release-euphrates-5.19.1.6-stable-a1bbd4f054f86b9d445bf2153b93c5d8d920cff7 629M el7.3-release-euphrates-5.19.1-stable-6edca74801c9db2ff2003780084bb12aa6aa29f4 694M el7.3-release-euphrates-5.19.2-stable-8e7da6324cbe5c34564ec51615b10a7737c6782a 1.1G el7.3-release-euphrates-5.19-stable-5282152e02f3ede70f0957217a62dc436c60b454 329M el7.3-release-euphrates-5.20.1.1-stable-726ea8f7dc4bca156d3e3f63cd7982eecb70c8cb 2.1G el7.3-release-fraser-6.0.1.1-stable-d9f94c47b63e3eb4179dd7a6e16202d5856581a6

O problema foi resolvido e corrigido nas versões: pc.2022.1, pc.2022.4, pc.2021.9.0.5 e posteriores. Para obter mais detalhes e soluções alternativas, consulte a seção de solução correspondente.

Removendo logs sysstats mais antigos
Se você verificou todos os locais habituais, mas ainda precisa liberar espaço, poderá obter a permissão do cliente para remover logs de sysstats mais antigos. Verifique novamente se não há casos de suporte abertos com RCAs pendentes antes de prosseguir, pois esses dados podem ainda não ter sido coletados.

 nutanix@pcvm:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K    /home/nutanix/data/logs/ecr 28K     /home/nutanix/data/logs/work 5.5M    /home/nutanix/data/logs/kafka 127M    /home/nutanix/data/logs/cassandra 162M    /home/nutanix/data/logs/data_providers 368M    /home/nutanix/data/logs/ikat_access_logs 4.2G    /home/nutanix/data/logs/sysstats 11G     /home/nutanix/data/logs nutanix@pcvm:~$

Cenário 2
Os logs do Hyperkube (logs do kublet) não estão sendo limpos após a ativação do CMSP/microsserviços no Prism Central.

Se o Cluster Maintenance Utilities (CMU) tiver sido atualizado para a versão 2.0.3 usando LCM, a versão incluída do Scavenger não terá a capacidade de limpar determinados logs relacionados aos microsserviços CMSP. Como resultado desse problema, os usuários podem descobrir que os serviços do Prism Central não estão iniciando ou que não conseguem fazer login na interface do PC. Este problema primeiro preencherá o diretório /home/nutanix/data/sys-storage/NFS_.../ , após o qual os logs do kubelet começarão a preencher a partição raiz na pasta /tmp.

 nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 34G 0 34G 0% /dev tmpfs 34G 52K 34G 1% /dev/shm tmpfs 34G 3.4M 34G 1% /run tmpfs 34G 0 34G 0% /sys/fs/cgroup /dev/sdb2 9.8G 9.8G 0G 100% / /dev/sdb3 50G 33G 16G 68% /home tmpfs 6.7G 0 6.7G 0% /run/user/1000 /dev/sdf1 2.5T 21G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977956_4f2835fa_ab29_41c5_9110_483bff268ca0 /dev/sdg1 2.5T 13G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977958_10aa3f76_65a5_4fa6_8c88_7c70a4504f29 /dev/sde1 2.5T 20G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977954_df3a5816_b14b_4098_9b58_d90d670781a1 /dev/sdc1 2.5T 12G 2.4T 1% /home/nutanix/data/stargate-storage/disks/NFS_6708977948_1bd3cd0d_de69_4a98_a18d_6049945e261b /dev/sdd 98G 88G 5.4G 100% /home/nutanix/data/kafka/disks/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c

Podemos encontrar logs hyperkube.ntnx * sendo gerados e não girados corretamente quando o CMSP está ativado. Verifique se o diretório /home/nutanix/data/sys-storage/NFS.../kubelet/ está excessivamente preenchido com esses logs.

 nutanix@pcvm:~$ du -hsx /home/nutanix/data/sys-storage/NFS*/kubelet/ 97.0G /home/nutanix/data/sys-storage/NFS_6708977950_cd98c6f5_c534_486a_a939_4f40bffd986c/kubelet/ nutanix@pcvm:~$ ls -l /home/nutanix/data/sys-storage/NFS_4_0_7036_6578653c_8a38_4af8_9649_42e7939f3656/kubelet/kubelet* | wc -l 98

Ao trabalhar como pretendido, devemos ver menos de 10G usados nesta pasta kubelet, e a contagem de arquivos para kubelet* será inferior a aproximadamente 15

Além disso, podemos ver logs semelhantes do kubelet ocupando espaço em /tmp, depois que o espaço no diretório /home/nutanix/data/sys-storage/NFS... se esgotar.

 nutanix@pcvm:~$ sudo du -hsx /tmp 2.8G /tmp nutanix@pcvm:~/tmp$ sudo ls -larth /tmp/ total 2.8G ***truncated*** -rw-r--r--. 1 root root 109K Jun 23 05:49 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-054920.15123 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055012.17214 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055011.17214 -rw-r--r--. 1 root root 1.4K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055038.18217 -rw-r--r--. 1 root root 114K Jun 23 05:50 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055038.18217 -rw-r--r--. 1 root root 109K Jun 23 05:51 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055106.19499 -rw-r--r--. 1 root root 1.8G Jun 24 03:20 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230623-055151.21218 -rw-r--r--. 1 root root 60K Jun 24 15:06 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230623-055155.21218 -rw-r--r--. 1 root root 5.8M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230623-055152.21218 -rw-r--r--. 1 root root 990M Jun 24 15:10 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-032057.21218 -rw-r--r--. 1 root root 103K Jun 24 23:59 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230624-235940.170513 -rw-r--r--. 1 root root 3.3K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-000123.175052 -rw-r--r--. 1 root root 6.7K Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-000120.175052 -rw-r--r--. 1 root root 2.8M Jun 25 00:01 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-000120.175052 lrwxrwxrwx. 1 root root 67 Jun 25 04:01 kubelet.INFO -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 lrwxrwxrwx. 1 root root 70 Jun 25 04:01 kubelet.WARNING -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 lrwxrwxrwx. 1 root root 68 Jun 25 04:01 kubelet.ERROR -> kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 25K Jun 25 04:02 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.ERROR.20230625-040148.21556 -rw-r--r--. 1 root root 38K Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.WARNING.20230625-040145.21556 -rw-r--r--. 1 root root 6.0M Jun 25 04:04 kubelet.ntnx-ww-xx-yy-zz-a-pcvm.root.log.INFO.20230625-040145.21556 -rw-------. 1 nutanix nutanix 0 Jun 26 08:37 .nstat.u1000 -rw-r-----. 1 nutanix nutanix 0 Jun 26 08:38 lcm_metrics_uploader_lock -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 lazan_pc_greenlet_stack_dump -rw-------. 1 nutanix nutanix 0 Jun 26 08:43 uhura_greenlet_stack_dump drwxr-xr-x. 19 root root 4.0K Jun 26 08:44 .. drwx------. 2 nutanix nutanix 4.0K Jun 26 09:24 hsperfdata_nutanix drwxrwxrwt. 14 root root 4.0K Jun 26 09:35 .

Cenário 3
Iniciando PC.2022.6 - um disco dedicado de 30 GB é criado e montado para atualizações de PC. Este Vdisk será usado para baixar e extrair binários de atualização de atualizações consecutivas. Se o disco de atualização do Prism Central VM for altamente utilizado, o upgrade do Prism Central falhará devido à falta de espaço no disco de atualização.

 nutanix@NTNX-PCVM:$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 13G 0 13G 0% /dev tmpfs 13G 40K 13G 1% /dev/shm tmpfs 13G 2.6M 13G 1% /run tmpfs 13G 0 13G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.2G 2.5G 75% / /dev/sdb3 50G 14G 36G 28% /home /dev/sde 30G 26G 4.1G 87% /home/nutanix/upgrade /dev/sdc1 492G 147M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_271_960db4d2_45e7_4ef7_92bd_bdcd7e0b6aaf tmpfs 2.6G 0 2.6G 0% /run/user/1000

Nota : Caso vários serviços estejam habilitados no Prism Central, como msp, karbon, calma, fluxo e objetos, veríamos o uso de /home alto, pois cada um dos serviços gerará vários logs e arquivos de configuração. Os engenheiros da Nutanix estão constantemente trabalhando para melhorar o uso do /home. Se nenhum dos cenários acima corresponder e isso afetar a atualização do Prism Central, entre em contato com a equipe de suporte da Nutanix para ajudar na limpeza manual/home, cortando os logs.

Cenário 4
Devido ao problema de rotação do arquivo de log, o uso do diretório de logs do Adonis é alto. O uso do diretório de log não deve ser superior a 1G. Para implantações de expansão do Prism Central, verifique o uso de arquivos em cada uma das VMs do Prism Central:

 nutanix@pcvm:~/data/logs$ sudo du -h /home/nutanix/adonis/logs 6.1G /home/nutanix/adonis/logs/access 19G /home/nutanix

Cenário 5
Em certos casos, catalina.out pode consumir uma grande quantidade de espaço na VM do Prism Central.

SSH para o Prism Central e verifique se /home/nutanix/data/logs/catalina.out está consumindo uma grande quantidade de espaço:

 nutanix@PCVM:~$ allssh du -h /home/nutanix/data/logs/catalina.out

Cenário 6
Para PC 2022.9 e superior, o alto uso de inodes no PCVM causa alto uso de partição raiz

SSH para o prisma central e execute os seguintes comandos para verificar o uso do inode:

 nutanix@PCVM:~$ allssh df -i /

Solução

Se a verificação reportar um status WARN ou FAIL, o uso do disco está acima do limite e precisa de investigação. Geralmente, a utilização do espaço pode ser consultada usando df -h . A saída abaixo mostra os pontos de montagem da seguinte forma:

/dev/sdb1 é partição raiz
/dev/sdb3 é a partição inicial
/dev/sdc1 é partição do disco de dados

 nutanix@pcvm$ df -h Filesystem Size Used Avail Use% Mounted on devtmpfs 7.9G 0 7.9G 0% /dev tmpfs 7.9G 44K 7.9G 1% /dev/shm tmpfs 7.9G 6.1M 7.9G 1% /run tmpfs 7.9G 0 7.9G 0% /sys/fs/cgroup /dev/sdb1 9.8G 7.4G 2.3G 77% / /dev/sdb3 50G 8.5G 41G 18% /home /dev/sdc1 492G 150M 486G 1% /home/nutanix/data/stargate-storage/disks/NFS_2_0_267_5a298323_3c9f_4a6f_a265_10c4c1e6593e tmpfs 1.6G 0 1.6G 0% /run/user/1000 /dev/sde 98G 401M 93G 1% /home/nutanix/data/sys-storage/NFS_1_0_264_1f5cda9a_2b3f_4f49_b348_baeb0ae338b8 tmpfs 1.6G 0 1.6G 0% /run/user/0

Uso do disco de dados ( /dev/sdXX ) ou uso geral do multivdisk :

Verifique se o número de VMs suportadas para o tamanho específico do Prism Central está dentro do limite (consulte o Guia do Prism Central para sua versão no Portal de suporte para obter os limites). Entre em contato com o suporte da Nutanix . Ao abrir um caso de suporte, anexe a saída dos comandos a seguir ao caso.

 nutanix@pcvm$ allssh df -h nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check

Partição inicial do Prism Central VM ( /home ):

Inspecione a saída do NCC para determinar qual VM do Prism Central tem alto uso e execute o seguinte:

Faça login na VM do Prism Central.
Use o comando cd para alterar o local da partição /home.
Liste o conteúdo do diretório por tamanho usando o comando abaixo:
```
 nutanix@pcvm$ ls -al | sort -k5,5nr
```
Examine a saída em busca de arquivos grandes não utilizados que possam ser excluídos.
Execute o comando du abaixo para listar o uso de cada arquivo e subdiretório:
```
 nutanix@pcvm$ sudo du -skxh * | sort -h
```
Examine a saída de grandes subdiretórios. Você pode executar o comando du para cada subdiretório em questão para identificar ainda mais arquivos grandes não utilizados que podem ser excluídos.
Abaixo estão alguns subdiretórios comuns de /home onde é provável que existam arquivos grandes não utilizados:
- /home/nutanix/software_downloads/ - exclua quaisquer versões antigas que não sejam as versões que você está atualizando atualmente.
- /home/nutanix/software_uncompressed/ - exclua quaisquer versões antigas que não sejam as versões que você está atualizando atualmente.
- /home/nutanix/data/cores - exclui rastreamentos de pilha antigos que não são mais necessários.
- /home/nutanix/data/log_collector/ - exclua logs NCC antigos com formato NCC-logs-2018-07-20-11111111111111-1032057545.tar.
- /home/nutanix/foundation/isos/ - ISOs antigos.
- /home/nutanix/foundation/tmp/ - arquivos temporários que podem ser excluídos.

Se as etapas acima não resolverem o problema ou se o problema corresponder a um dos cenários apresentados anteriormente neste artigo, siga as etapas de solução descritas abaixo.

Partição do sistema raiz do Prism Central VM ( / ) ou partição CMSP ( /dev/sdXX ):
Considere contratar o suporte da Nutanix . Reúna a saída dos comandos abaixo e anexe-a ao caso de suporte:

 nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 / 2>/dev/null nutanix@pcvm$ ncc health_checks system_checks pcvm_disk_usage_check

Cenário 1

Clique aqui para exibir informações detalhadas neste cenário:

O problema foi resolvido e corrigido nas versões: pc.2022.1, pc.2022.4, pc.2021.9.0.5 e posteriores.
Como solução alternativa, remova os diretórios que não possuem clusters registrados com a versão correspondente.

Encontre as versões AOS de todos os PEs registrados. Você pode fazer isso na coluna Prism Central > Hardware > Clusters > Versão AOS.
Liste os diretórios do console PE apache em /home/apache/ www /console/

 nutanix@pcvm$ sudo ls -lrth /home/apache/ www /console/el7.3-release-*

Se algum diretório do console apache do PE que não corresponda às versões registradas do PE estiver presente, ele deverá ser limpo com segurança.

Se precisar de mais assistência com a limpeza, considere contratar o suporte da Nutanix . Reúna a saída dos comandos abaixo e anexe-a ao caso de suporte:

 nutanix@pcvm$ ncli cluster info nutanix@pcvm$ allssh df -h nutanix@pcvm$ sudo du -h --max-depth=1 /home/apache/ www 2>/dev/null nutanix@pcvm$ cat ~/config/upgrade.history nutanix@pcvm$ ls -lrth /home/apache/ www /console/el7.3-release-* nutanix@pcvm$ du -sh /home/apache/ www /console/el7.3-release-*

Removendo logs sysstats mais antigos
Se você fez check-in em todos os locais habituais, mas ainda precisa liberar espaço, poderá obter a permissão do cliente para remover logs de sysstats mais antigos. Verifique novamente se não há casos de suporte abertos com RCAs pendentes antes de prosseguir, pois esses dados podem ainda não ter sido coletados.

 nutanix@PCVM:~$ sudo du -h -d 1 /home/nutanix/data/logs | sort -h 4.0K    /home/nutanix/data/logs/ecr 28K     /home/nutanix/data/logs/work 5.5M    /home/nutanix/data/logs/kafka 127M    /home/nutanix/data/logs/cassandra 162M    /home/nutanix/data/logs/data_providers 368M    /home/nutanix/data/logs/ikat_access_logs 4.2G    /home/nutanix/data/logs/sysstats 11G     /home/nutanix/data/logs nutanix@PCVM:~$

Você pode usar o seguinte comando para remover logs sysstats compactados mais antigos que uma determinada data. No exemplo abaixo, você removerá logs sysstats de todos os PCVMs com mais de 3 dias (ou 4.320 minutos).

 nutanix@PCVM:~$ allssh "find ~/data/logs/sysstats -name '*.gz' -mmin +4320 -type f -exec rm '{}' +"

Cenário 2
Se a sua instância do Prism Central corresponder a este cenário, consulte o Cenário KB-12707 nº 2 e abra um caso com o suporte da Nutanix para obter assistência na recuperação do problema.

Cenário 3

Clique aqui para exibir informações detalhadas neste cenário:

O aumento no Prism Central VM, uso de disco de atualização, é devido a vários arquivos do Prism Central Installer. Reduza o uso da partição de atualização do Prism Central VM removendo os arquivos do Prism Central Installer que não são necessários.
Esta partição /home/nutanix/upgrade foi projetada para armazenar arquivos relacionados à atualização. Portanto, qualquer outro arquivo neste diretório pode ser excluído.

O uso da partição conforme listado em df -h :

 /dev/sde 30G 26G 4.1G 87%/home/nutanix/upgrade

Para verificar o conteúdo do disco:

 allssh "ls -latr /home/nutanix/upgrade/"

Para remover os arquivos indesejados, use o comando abaixo:

 rm -f /home/nutanix/upgrade/<file_to_be_removed>

Observação: se você excluir acidentalmente a atualização do Prism Central nesta pasta, faça login no Prism Central por meio de um navegador da Web, vá para Configurações do Prism Central --> Atualizar Prism Central --> Clique no "X" ao lado da atualização do software e Baixe novamente o pacote.

Cenário 4
A Nutanix está ciente do problema. A correção para esse problema estará disponível em uma versão futura para PC. Para uma solução alternativa, entre em contato com o suporte da Nutanix .

Cenário 5
Se você perceber que o arquivo de log catalina.out está consumindo muito espaço, use o seguinte comando para reiniciar o serviço prisma no PCVM.

Clique aqui para exibir informações detalhadas neste cenário:

 nutanix@PCVM:~$ genesis stop prism; cluster start

Em alguns casos raros, o arquivo catalina.out não liberará espaço automaticamente após a rolagem do líder do prisma. Para corrigir isso, zere manualmente o arquivo de log catalina.out após a rolagem do líder do prisma:

 nutanix@PCVM:~$ echo "" > ~/data/logs/catalina.out

Para PCVMs de instância única, execute essa alteração enquanto o serviço prisma estiver parado e, em seguida, execute um início de cluster.

Cenário 6

Siga KB-6082 para limpar o uso do inode.