Проверка работоспособности NCC:cluster_services_status

Эта статья переведена автоматически. Щелкните здесь, чтобы просмотреть исходную версию на английском языке.

Описание

Проверка работоспособности NCCcluster_services_status проверяет, перезапускались ли недавно службы виртуальной машины контроллера (CVM) в кластере.

Нажмите здесь, чтобы отобразить отмеченные услуги

До NCC-3.10.1

Эта проверка выполняется каждые 4 часа и ищет журналы FATAL, созданные за последние 24 часа.

Хотя эта проверка NCC выполняет проверку текущего статуса службы и предыдущих сбоев, эта проверка приводит к статусу FAIL только в том случае, если одна или несколько служб несколько раз вышли из строя и создали журнал FATAL в течение последних 24 часов (5 раз на одном контроллере). ВМ или 10 раз по кластеру).

Сообщение в NCC-3.10.1

Эта проверка выполняется каждые 10 минут и ищет журналы FATAL, созданные за последние 24 часа.

Проверка не удалась в следующих двух случаях:

Служба FATAL 10 раз в кластере за один день для кластеров, имеющих более 10 узлов (ИЛИ) Количество FATAL за один день больше или равно количеству узлов в кластере, для кластеров, имеющих до 10 узлы.
Услуга FATAL 5 раз в одном CVM за один день.

Один узел в кластере сообщает о статусе FAIL проверки кластера_services_status от имени всех остальных CVM в кластере. При поиске журналов FATAL обязательно просмотрите все CVM, используя в качестве руководства список затронутых служб из сообщения о состоянии FAIL.

Если в кластере недавно выполнялись действия по техническому обслуживанию, статус FAIL этой проверки указывает на то, что службы нестабильны, что потенциально может повлиять на производительность или удобство обслуживания кластера.

Начиная с версии NCC 3.5.1, эта проверка применима к виртуальным машинам Prism Central в масштабируемом кластере ПК.

Запуск проверки NCC

Запустите эту проверку как часть полной проверки работоспособности NCC.

 nutanix@cvm$ ncc healthchecks run_all

Или вы можете запустить эту проверку индивидуально.

 nutanix@cvm$ ncc health_checks system_checks cluster_services_status

Вы также можете запустить проверки со страницы «Состояние» веб-консоли Prism: выберите «Действия» > «Выполнить проверки» . Выберите «Все проверки» и нажмите « Выполнить» .

По умолчанию эта проверка запланирована на каждые 10 минут.
Эта проверка создаст предупреждение после 1 сбоя.

Пример вывода

Для статуса: ПРОЙДЕН

 Запуск /health_checks/system_checks/cluster_services_status на всех узлах [PASS]
-------------------------------------------------- ----------------------+
+---------------+
| Государство | Граф |
+---------------+
| Пройти | 1 |
| Всего | 1 |
+---------------+
Вывод плагина записывается в /home/nutanix/data/logs/ncc-output-latest.log

Для статуса: НЕУДАЧА

 Подробная информация для кластера_services_status:
 Узел хххх:
 СБОЙ: ядро компонентов удалено за последние 24 часа: ['cerebro', 'куратор']
 Подробную информацию о кластере_services_status см. в KB 3378 (http://portal.nutanix.com/kb/3378) или повторите проверку с помощью: ncc health_checks system_checks cluster_services_status

Выходные сообщения

Проверить идентификатор	3034
Описание	Проверьте, не перезапускались ли недавно службы в кластере.
Причины неудач	Это предупреждение указывает на то, что одна или несколько служб в кластере были перезапущены.
Резолюции	Если это предупреждение возникает один раз или нечасто, никаких действий не требуется. Если это происходит часто, обратитесь в службу поддержки Nutanix.
Влияние	Производительность кластера может значительно ухудшиться. В случае нескольких служб с одинаковым условием кластер может оказаться неспособным обслуживать запросы ввода-вывода.
Идентификатор оповещения	А3034
Смарт-заголовок оповещения	Служба кластеров часто перезапускается
Название оповещения	Службы кластерной службы часто перезапускаются
Предупреждающее сообщение	На всех виртуальных машинах контроллера произошло несколько перезапусков служб. Последний сбой этих служб произошел в соответствующие временные метки.

Решение

Если проверка кластера_services_status возвращает статус FAIL, выполните следующие действия:

Проверьте список дампов ядра, созданных на всех виртуальных машинах контроллера.:
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Запустите logbay на любой виртуальной машине контроллера, чтобы собрать файлы журналов за последние 24 часа. (Дополнительную информацию о отсеке для журналов см. в Nutanix KB 6691. )
```
 nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
```
В результате будет создан zip-файл в каталоге /home/nutanix/data/logbay/bundles/ .
Примечание. В больших кластерах объединенный пакет журналов может оказаться слишком большим для круглосуточного сбора журналов. В таком случае используйте logbay без опции --aggregate и загрузите пакеты журналов из каждой CVM в заявку в службу поддержки.

Проверьте следующее и найдите файлы с именем *.stack_trace.txt.gz , которые должны находиться на CVM, создавшем дампы ядра.
```
 nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
```

Создайте новый запрос на портале поддержки Nutanix и прикрепите к нему вывод вышеуказанных команд и пакет logbay.

Дополнительная информация

Nutanix KB 3378 — исходный документ на портале Nutanix
Целевая страница Nutanix
План поддержки Lenovo ISG — устройства ThinkAgile HX и Lenovo Converged HX Series

ID документа:HT516511

Дата публикации оригинала:05/21/2024

Дата последнего изменения:05/30/2024