Verificação de integridade do NCC: cluster_services_status

Este é um artigo traduzido automaticamente, por favor clique aqui para ver a versão original em inglês.

Descrição

A verificação de funcionamento do NCC cluster_services_status verifica se os serviços da VM do controlador (CVM) foram reiniciados recentemente no cluster.

Clique aqui para exibir os serviços verificados

Antes de NCC-3.10.1

Esta verificação é executada a cada 4 horas e procura logs FATAL gerados nas últimas 24 horas.

Embora esta verificação NCC execute verificações no status atual do serviço e nas falhas anteriores, esta verificação resulta em um status FAIL somente se um ou mais serviços falharam várias vezes e geraram um log FATAL nas últimas 24 horas (5 vezes em um único controlador VM ou 10 vezes no cluster).

Postar em NCC-3.10.1

Essa verificação é executada a cada 10 minutos e procura logs FATAL gerados nas últimas 24 horas.

A verificação falha nos dois casos a seguir:

Um serviço FATALs 10 vezes no cluster, em um dia para clusters com mais de 10 nós (OR) O número de FATALs, em um dia, é maior ou igual ao número de nós no cluster, para clusters com até 10 nós.
Um atendimento FATAL 5 vezes em uma única CVM, em um dia.

Um único nó no cluster relata um status FAIL da verificação cluster_services_status em nome de todos os outros CVMs no cluster. Ao investigar logs FATAL, verifique todos os CVMs, usando a lista de serviços afetados da mensagem de status FAIL como guia.

Se atividades de manutenção tiverem sido executadas recentemente no cluster, um status FAIL dessa verificação indicará que os serviços estão instáveis, o que pode afetar potencialmente o desempenho ou a capacidade de manutenção do cluster.

A partir da versão 3.5.1 do NCC, esta verificação é aplicável às VMs do Prism Central em um cluster de PC de escalabilidade horizontal.

Executando a verificação NCC

Execute esta verificação como parte das verificações de integridade completas do NCC.

 nutanix@cvm$ ncc health_checks run_all

Ou você pode executar essa verificação individualmente.

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

Você também pode executar as verificações na página Health do console web Prism: selecione Actions > Run Checks . Selecione Todas as verificações e clique em Executar .

Essa verificação está programada para ser executada a cada 10 minutos, por padrão.
Esta verificação irá gerar um alerta após 1 falha.

Exemplo de saída

Para status: PASSAR

 Executando /health_checks/system_checks/cluster_services_status em todos os nós [PASS]
-------------------------------------------------- ----------------------+
+---------------+
| Estado | Contagem |
+---------------+
| Passe | 1 |
| Total | 1 |
+---------------+
Saída do plug-in gravada em /home/nutanix/data/logs/ncc-output-latest.log

Para status: FALHA

 Informações detalhadas para cluster_services_status:
 Nó xxxx:
 FALHA: Núcleo de componentes descartados nas últimas 24 horas: ['cerebro', 'curator']
 Consulte KB 3378 (http://portal.nutanix.com/kb/3378) para obter detalhes sobre cluster_services_status ou verifique novamente com: ncc health_checks system_checks cluster_services_status

Mensagens de saída

Verifique a identificação	3034
Descrição	Verifique se os serviços foram reiniciados recentemente no cluster.
Causas de falha	Este alerta indica que um ou mais serviços no cluster foram reiniciados.
Resoluções	Se este alerta ocorrer uma vez ou com pouca frequência, nenhuma ação será necessária. Se for frequente, entre em contato com o suporte da Nutanix.
Impacto	O desempenho do cluster pode ser significativamente degradado. No caso de vários serviços com a mesma condição, o cluster pode ficar impossibilitado de atender solicitações de E/S.
ID do alerta	A3034
Título inteligente de alerta	Serviço de cluster reiniciando com frequência
Título do alerta	Serviços de serviço de cluster reiniciando com frequência
Mensagem de alerta	Houve várias reinicializações de serviços em todas as VMs do controlador. A última falha desses serviços ocorreu em carimbos de data/hora, respectivamente.

Solução

Se a verificação cluster_services_status retornar um status FAIL, faça o seguinte:

Verifique a lista de core dumps gerados em todas as VMs do controlador:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Execute o logbay de qualquer VM do controlador para coletar os arquivos de log das últimas 24 horas. (Para obter mais informações sobre logbay , consulte Nutanix KB 6691 .)
```
 nutanix@cvm$ logbay coletar --agregado=true --duração=-24h
```
Isso gera um arquivo zip no diretório /home/nutanix/data/logbay/bundles/ .
Observação: o pacote de log agregado pode ficar muito grande em clusters maiores para coleta de log 24 horas. Nesse caso, use logbay sem a opção --gregate e carregue pacotes de log de cada CVM para o caso de suporte.

Verifique o seguinte e procure arquivos com *.stack_trace.txt.gz que devem estar na CVM que gerou core dumps.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Crie um novo caso no Portal de Suporte Nutanix e anexe a saída dos comandos acima e o pacote logbay ao caso de suporte.

Informações adicionais

Nutanix KB 3378 - Documento original no Portal Nutanix
Página de destino da Nutanix
Plano de suporte Lenovo ISG - ThinkAgile HX Appliance e Lenovo Converged HX Series

ID do documento:HT516511

Data de publicação original:05/21/2024

Data da última modificação:05/30/2024