Проверка работоспособности NCC:cluster_services_status
Проверка работоспособности NCC:cluster_services_status
Проверка работоспособности NCC:cluster_services_status
Описание
Проверка работоспособности NCCcluster_services_status проверяет, перезапускались ли недавно службы виртуальной машины контроллера (CVM) в кластере.
Нажмите здесь, чтобы отобразить отмеченные услуги
До NCC-3.10.1
Эта проверка выполняется каждые 4 часа и ищет журналы FATAL, созданные за последние 24 часа.
Хотя эта проверка NCC выполняет проверку текущего статуса службы и предыдущих сбоев, эта проверка приводит к статусу FAIL только в том случае, если одна или несколько служб несколько раз вышли из строя и создали журнал FATAL в течение последних 24 часов (5 раз на одном контроллере). ВМ или 10 раз по кластеру).
Сообщение в NCC-3.10.1
Эта проверка выполняется каждые 10 минут и ищет журналы FATAL, созданные за последние 24 часа.
Проверка не удалась в следующих двух случаях:
- Служба FATAL 10 раз в кластере за один день для кластеров, имеющих более 10 узлов (ИЛИ) Количество FATAL за один день больше или равно количеству узлов в кластере, для кластеров, имеющих до 10 узлы.
- Услуга FATAL 5 раз в одном CVM за один день.
Один узел в кластере сообщает о статусе FAIL проверки кластера_services_status от имени всех остальных CVM в кластере. При поиске журналов FATAL обязательно просмотрите все CVM, используя в качестве руководства список затронутых служб из сообщения о состоянии FAIL.
Если в кластере недавно выполнялись действия по техническому обслуживанию, статус FAIL этой проверки указывает на то, что службы нестабильны, что потенциально может повлиять на производительность или удобство обслуживания кластера.
Начиная с версии NCC 3.5.1, эта проверка применима к виртуальным машинам Prism Central в масштабируемом кластере ПК.
Запуск проверки NCC
Запустите эту проверку как часть полной проверки работоспособности NCC.
nutanix@cvm$ ncc healthchecks run_all
Или вы можете запустить эту проверку индивидуально.
nutanix@cvm$ ncc health_checks system_checks cluster_services_status
Вы также можете запустить проверки со страницы «Состояние» веб-консоли Prism: выберите «Действия» > «Выполнить проверки» . Выберите «Все проверки» и нажмите « Выполнить» .
По умолчанию эта проверка запланирована на каждые 10 минут.
Эта проверка создаст предупреждение после 1 сбоя.
Пример вывода
Для статуса: ПРОЙДЕН
Запуск /health_checks/system_checks/cluster_services_status на всех узлах [PASS]
-------------------------------------------------- ----------------------+
+---------------+
| Государство | Граф |
+---------------+
| Пройти | 1 |
| Всего | 1 |
+---------------+
Вывод плагина записывается в /home/nutanix/data/logs/ncc-output-latest.log
Для статуса: НЕУДАЧА
Подробная информация для кластера_services_status:
Узел хххх:
СБОЙ: ядро компонентов удалено за последние 24 часа: ['cerebro', 'куратор']
Подробную информацию о кластере_services_status см. в KB 3378 (http://portal.nutanix.com/kb/3378) или повторите проверку с помощью: ncc health_checks system_checks cluster_services_status
Выходные сообщения
Проверить идентификатор | 3034 |
Описание | Проверьте, не перезапускались ли недавно службы в кластере. |
Причины неудач | Это предупреждение указывает на то, что одна или несколько служб в кластере были перезапущены. |
Резолюции | Если это предупреждение возникает один раз или нечасто, никаких действий не требуется. Если это происходит часто, обратитесь в службу поддержки Nutanix. |
Влияние | Производительность кластера может значительно ухудшиться. В случае нескольких служб с одинаковым условием кластер может оказаться неспособным обслуживать запросы ввода-вывода. |
Идентификатор оповещения | А3034 |
Смарт-заголовок оповещения | Служба кластеров часто перезапускается |
Название оповещения | Службы кластерной службы часто перезапускаются |
Предупреждающее сообщение | На всех виртуальных машинах контроллера произошло несколько перезапусков служб. Последний сбой этих служб произошел в соответствующие временные метки. |
Решение
Если проверка кластера_services_status возвращает статус FAIL, выполните следующие действия:
- Проверьте список дампов ядра, созданных на всех виртуальных машинах контроллера.:
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Запустите logbay на любой виртуальной машине контроллера, чтобы собрать файлы журналов за последние 24 часа. (Дополнительную информацию о отсеке для журналов см. в Nutanix KB 6691. )
nutanix@cvm$ logbay Collect --aggregate=true --duration=-24h
В результате будет создан zip-файл в каталоге /home/nutanix/data/logbay/bundles/ .
Примечание. В больших кластерах объединенный пакет журналов может оказаться слишком большим для круглосуточного сбора журналов. В таком случае используйте logbay без опции --aggregate и загрузите пакеты журналов из каждой CVM в заявку в службу поддержки.
- Проверьте следующее и найдите файлы с именем *.stack_trace.txt.gz , которые должны находиться на CVM, создавшем дампы ядра.
nutanix@cvm$ allssh 'ls -ltr /home/nutanix/data/cores'
- Создайте новый запрос на портале поддержки Nutanix и прикрепите к нему вывод вышеуказанных команд и пакет logbay.
Дополнительная информация
- Nutanix KB 3378 — исходный документ на портале Nutanix
- Целевая страница Nutanix
- План поддержки Lenovo ISG — устройства ThinkAgile HX и Lenovo Converged HX Series