Проверка работоспособности NCC: cfs_fatal_check

Проверка работоспособности NCC: cfs_fatal_check

Проверка работоспособности NCC: cfs_fatal_check

Эта статья переведена автоматически. Щелкните здесь, чтобы просмотреть исходную версию на английском языке.

Описание

Проверка работоспособности NCC cfs_fatal_check — это проверка, позволяющая определить, стабилен ли процесс CFS (служба Collector Framework). Процесс CFS находится в службе кластера_health и отправляет данные Pulse в Insights. Проверка сработает, если процесс CFS перезапускается как минимум 4 раза за последние 2 часа. Пока процесс CFS не стабилизируется, отправка данных удаленной поддержки/импульсной аналитики и проактивной поддержки может быть отложена.

Прежде чем запускать эту проверку, обновите NCC до последней версии. Эта проверка была введена в NCC 4.6.1.

Запуск проверки NCC

Вы можете запустить эту проверку как часть полной проверки работоспособности NCC.

 nutanix@cvm$ ncc health_checks run_all

Или вы можете запустить эту проверку отдельно.

 nutanix@cvm$ ncc health_checks pulse_checks cfs_fatal_check

Вы также можете запустить проверки со страницы «Здоровье» веб-консоли Prism. Выберите Действия > Выполнить проверки . Выберите «Все проверки» и нажмите « Выполнить» .

Эта проверка запланирована на запуск каждые 7200 секунд.
Эта проверка создаст процесс CFS, который не находится в стабильном состоянии .

Примеры результатов

Для статуса: ПРОЙДЕН

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ PASS ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ +-----------------------+ | State | Count | +-----------------------+ | Pass | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Для статуса: Предупреждение

 Running : health_checks pulse_checks cfs_fatal_check [==================================================] 100% /health_checks/pulse_checks/cfs_fatal_check [ WARN ] ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ Detailed information for cfs_fatal_check: Node XYZ240: Warn: CFS process is not in a stable state. Refer to KB 13150 (http://portal.nutanix.com/kb/13150) for details on cfs_fatal_check or Recheck with: ncc health_checks pulse_checks cfs_fatal_check --cvm_list=XYZ240 +-----------------------+ | State | Count | +-----------------------+ | Fail | 1 | | Total Plugins | 1 | +-----------------------+ Plugin output written to /home/nutanix/data/logs/ncc-output-latest.log

Выходные сообщения

Проверить идентификатор
140005
Описание
Это проверка, чтобы определить, стабилен ли процесс CFS. Процесс CFS находится в службе кластера_health и отправляет данные Pulse в Insights. Проверка сработает, если процесс CFS перезапускается как минимум 4 раза за последние 2 часа.
Причины неудач
Процесс CFS может неоднократно перезапускаться, если возникает неисправимая ошибка, или процесс CFS не может выполнить задачу, зависящую от файловой системы или процесса Zookeeper, или если он завершается убийцей нехватки памяти (OOM).
Резолюции
Процесс CFS находится под управлением службы кластера_health на виртуальной машине контроллера. Убедитесь, что служба кластера_здоровья на затронутом узле работает. Проверьте журналы служб cfs.out иuster_health для получения более подробной информации о причине сбоя.
Влияние
Получение аналитических данных и активную поддержку можно отложить до стабилизации процесса CFS.

Решение

Pulse предоставляет диагностические системные данные в службу поддержки Nutanix для обеспечения упреждающей, контекстно-зависимой поддержки решений Nutanix. Nutanix рекомендует клиентам включить импульсный режим. Дополнительную информацию см. в разделе «Мониторинг здоровья пульса» .

  • Если в вашем кластере используется версия NCC старше 4.6.3.1, обновите NCC до последней версии с помощью Life Cycle Manager (LCM).
  • Устраните предупреждение «Процесс CFS не находится в стабильном состоянии» из веб-консоли Prism.
  • Повторно запустите проверку NCC, как указано выше.
    • Если вы по-прежнему видите ошибку проверки NCC, запустите следующую проверку NCC, чтобы проверить подключение к серверам Nutanix Pulse Insights.
 nutanix@cvm$ ncc health_checks pulse_checks rest_connection_checks
  • Если вышеуказанная проверка не удалась, следуйте инструкциям из KB-5490, чтобы устранить проблему недоступности. Возможно, возникла проблема с подключением к восходящей сети, требующая решения. Проверьте DNS, маршрутизацию и брандмауэр или списки управления доступом для вашей сети.
  • Другие причины для предупреждения заключаются в том, что процесс CFS может неоднократно перезапускаться, если он сталкивается с неисправимой ошибкой, процесс CFS не может выполнить задачу, зависящую от файловой системы или процесса Zookeeper, или если он завершается из-за нехватки памяти ( ООМ) проблемы.
    • Убедитесь, что служба CFS работает в кластере:
 nutanix@CVM:~$ ps aux | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$11 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' nutanix 4899 0.2 0.2 1438992 83792 ? Sl Jan03 6:31 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Проверьте, не произошел ли недавно сбой службы CFS. В приведенной ниже команде процесс CFS выполняется 2 дня, 6 часов, 2 минуты и 33 секунды.
 nutanix@CVM:~$ ps -eo etime,args | grep /home/nutanix/ncc/bin/nusights/cfs | grep -v grep | awk '$2 == "/home/nutanix/ncc/bin/nusights/cfs" { print $0 }' 2-06:02:33 /home/nutanix/ncc/bin/nusights/cfs -use_iam=True -log_dir=/home/nutanix/data/logs/ -logtostderr=True -logstacktostderr=True -useUTC=True -config_dir=/home/nutanix/ncc/config/nusights -protocol=https -tls_host_name= -ca_cert_path=/home/nutanix/ncc/cert/insights_collector/cacert.pem -rest_base_url=/nusights/services -rest_protocol_version=v1 -use_pc_as_proxy=True -experimental_dump_to_file=True -experimental_dump_transported_data_to_file=False -stats_flush_frequency_secs=900 -num_os_threads=1 -max_rss_memory_limit_mb=628 -high_rss_mb=130 -low_rss_pt=70 -resource_check_interval_secs=5 -enable_self_monitoring=false -prof_dir=/home/nutanix/data/cores/ -mem_profile_rate=-1 -enable_live_debug=False -v=0 -cgroup_subsystems=cpu,cpuacct,memory -use_resumable_file_upload=True -enable_metering_mode_monitoring=True -enable_message_batching=True -max_batch_message_size_in_kb=64 -batch_msg_send_duration_in_sec=120 -enable_local_stats_storage=True -read_additional_cvmconfig_info=true -commit_log_read_buf_size_mb=2 -token_generation_rate_per_sec=100.000000 -burst_size=200
  • Проверьте наличие недавнего FATAL в файле cfs.out.
 nutanix@CVM:~$ grep -B8 ^F ~/data/logs/cfs.out* I0418 08:22:18.217482Z 13365 transport.go:993] HTTP(S) proxy: Testing connectivity to end point https://insights.nutanix.com:443/nusights/services/v1/test by making a http POST without any proxy with timeoutSecs: 60. I0418 08:22:46.813213Z 13365 cvmconfig.go:838] current status has remained to be the same from prevStatus: false I0418 08:22:47.794832Z 13365 cfs_stats.go:356] Publishing the commitlog stats to DB. I0418 08:23:18.218412Z 13365 transport.go:2231] Reset cached transport 0xc0000e57c0 for transportKey PULSE:DIRECT:insights.nutanix.com. E0418 08:23:18.218466Z 13365 transport.go:1026] HTTP(S) proxy: Test request to https://insights.nutanix.com:443/nusights/services/v1/test without any proxy failed with error Post "https://insights.nutanix.com:443/nusights/services/v1/test": context deadline exceeded and response nil I0418 08:23:18.218479Z 13365 transport.go:1083] Server endpoint(https://insights.nutanix.com:443/nusights/services/v1/test) is not reachable directly without any proxy. I0418 08:23:18.218486Z 13365 transport.go:1044] Trying connectivity tests for proxy type PC Proxy I0418 08:23:18.218493Z 13365 transport.go:1144] 10830.378976167 Seconds lapsed since the connectivity test is started. F0418 08:23:18.218505Z   13365 transport.go:1161] QFATAL Exiting CFS since POST Endpoint https://insights.nutanix.com:443/nusights/services/ is not reachable via any of the configured proxies .
  • Перезапустите службу кластера_health, чтобы попытаться стабилизировать процесс CFS:
 nutanix@CVM:~$ genesis stop cluster_health nutanix@CVM:~$ cluster start
  • Отслеживайте стабильность процесса CFS, повторно запустив проверку NCC.

Статьи по Теме

ID документа:HT516498
Дата публикации оригинала:05/17/2024
Дата последнего изменения:05/30/2024