Smithson Aug 16 2016 at 13:07

Nagios — система мониторинга и некоторые самодельные плагины

22 min

71K

System administration*IT Infrastructure*

Comments 19

NikiN Aug 16 2016 at 14:40

Если бы статья вышла в 2003, вы могли бы замечательно дополнить Мониторинг Windows-серверов с помощью Nagios

Godless Aug 16 2016 at 22:45

Прошу, не останавливайтесь. Интересно жешь…

зы: чем таки заббикс не угодил? не холивара ради, а интернса для. И шлете ли смс или как вообще у вас уведомления устроены? Опыт интересен…

CentALT Aug 17 2016 at 09:07

Не автор поста, но отвечу, 10 лет назад альтернативы nagios практически не было, а когда уже мониторится более 4k железок, то переходить на другую систему мониторинга как бы особого смысла уже нет.

SMS рассылаются просто

define contact {
  contact_name                  лалала
  alias                         лалала
  service_notification_period   24x7
  host_notification_period      24x7
  service_notification_options  w,u,c,r
  host_notification_options     d,u,r
  service_notification_commands sms_service
  host_notification_commands    sms_service2
  pager                         7913лалалал
}

define command {
	command_name	sms_service2
	command_line	/usr/bin/send_sms.pl $CONTACTPAGER$ "$HOSTNAME$-$HOSTADDRESS$-$HOSTSTATE$-$LONGDATETIME$" "$HOSTNAME$-$HOSTADDRESS$-$HOSTSTATE$-$LONGDATETIME$-$SERVICEOUTPUT$"
	}

Код /usr/bin/send_sms.pl написать по вкусу смотря через что будете слать СМС например через gnokii.

Godless Aug 17 2016 at 09:50

Про альтернативы понял. А про смс я спрашивал не как сделать, а скорее действительно ли нужная штука, или может все таки блаж (исходя из опыта)...

varnav Aug 17 2016 at 17:06

10 лет назад был тот же Zabbix, не сильно хуже нынешнего.

Smithson Aug 17 2016 at 09:55

Спасибо, вторая часть будет! Может быть даже сегодня :)
Забикс не угодил внешним видом и настройкой.
Nagios у нас настроен так, что показывает на первом экране при открытии закладку problem — чтобы даже самый сбодуна сотрудник техподдержки смог сразу увидеть, что есть проблема. У забикса так сделать не удалось, простыня вперемешку зеленого с желтым и красным на 10 экранов — неинформативно. Это было давно, подробностей не помню. Ну и настройка забикса была (на мой взгляд) позапутаннее, чем у нагиоса.

смс я шлю примерно так, как описано в ответе выше, вот таким скриптом

sendsms

#!/usr/local/bin/bash
#
# $1 - number of phone
# $2 - text. Space must be change to +
#

DATE=`date "+%Y-%m-%d"`
LOGFILE=/data/sms.ru/$DATE.log
phone="$1"
read text

cd /data/sms.ru

message="$text"

txt=`echo $message | sed  -e 's/ /+/g'`.

echo "To phone ' $phone ' sending ' $txt '" >>$LOGFILE

/usr/local/bin/curl  -d "text=$txt"  http://sms.ru/sms/send\?api_id=вашidнаsmsru\&to=$phone

echo.
echo  OK

Если отпадает инет, то беда, но прикрутить телефон к freebsd мне так и не удалось. Да и смс приходят только при проблемах с ups (если ups перешел на питание от батарей) и при проблемах с почтой (потому как почтовые рассылки в таком случае вас не достигнут). Так что 100 рублей на счете в sms.ru хватает примерно на год-два.
А интернет последний раз у нас был полностью недоступен (у меня ТРИ независимых провайдера) около 8 лет назад, когда соседняя стройка перебила разом оба электрических ввода в здание. смс от ups мне пришли, а дальше — ресурс ups кончился и всё погасло :)

Godless Aug 17 2016 at 10:15

Спасибо, понятно.

NikiN Aug 17 2016 at 10:19

Миграцию на icinga не планируйте?

Smithson Aug 17 2016 at 10:30

Смотрел, не увидел плюсов от слова совсем. Всё-таки система мониторинга — это не самоцель, самоцель — быстрый доступный мониторинг. «Не тронь технику — и она не подведет» (с). Потратить несколько дней на то, чтобы повторить уже работающую систему — зачем?

CentALT Aug 17 2016 at 10:47

Мигрировал, конфиги 1 в 1. Просто обновил пакет и все заработало. Подводных камней не было.

MechanID Aug 17 2016 at 14:27

приветствую, расскажите пожалуста по каким причинам или соображениям не используете nrpe демон на unix-серверах?

Smithson Aug 17 2016 at 14:32

Добрый день. Ответ «так исторически сложилось» вас устроит? Одно дело поставить на (например) боевой oracle-сервер snmp или даже дать малоправному пользователя ssh, а другое — накатить кучу nagios-плагинов с кучей зависимостей. Основная идея нашего мониторинга — не трогай то, что мониторишь, руками. Смотри издалека.

MechanID Aug 17 2016 at 15:51

Полностью устраивает — всегда интересно узнать чужие use-case и точку зрения, временами позволяет взглянуть на собственные задачи и проблемы с новой стороны.

Спасибо за ответ.

varnav Aug 17 2016 at 17:05

А разве nagios не был заменён на icinga, которая затем заменена на icinga2?

viiy Aug 18 2016 at 11:51

Icinga это форк nagios. Причина отделения — недовольство разработчиков направлением развития Nagios.
Сейчас оба продукта развиваются, причем icinga не ломает совместимость с последним.

viiy Aug 17 2016 at 23:46

Интересно, пускай и не популярно сегодня (все переходят на всякие grafana, prometheus и etc)
Расскажите как решаете проблему перегрузки временных пулов в nagios?
Имею ввиду, когда проверок становится настолько много, что заполнялась очередь и шли варнинги что проверка не успевает выполняться с заданным расписанием.
В свое время тоже админил nagios/icinga, и был вынужден часть «активных» проверок переводить в «пассивные»
Т.е использовать по максимуму snmp-traps (гемор с snmptt)
Для части проверок использовал nrpe, там где было приемлемо — nsca_send
Хостов было около 350, проверок уже не помню, в 2 раза больше.
Было много хостов где мониторилась только доступность.

Smithson Aug 18 2016 at 09:58

Расскажите как решаете проблему перегрузки временных пулов в nagios?

Честно сказать, ни разу не сталкивался за 10 лет. Но у меня есть хосты, у которых даже доступность проверяется раз в 10-30 минут, остальные сервисы еще реже. Далёкие ДО…
И сервер реальный и толстый под это дело стоит (Proliant DL380 G8), и система там freebsd, она сама по себе ресурсы не жрет, как слон банные веники, нагиосу много остаётся.

viiy Aug 18 2016 at 11:40

Да, тогда понятно, вижу у вас другие требования к кониторингу.
У нас большинство проверок было с интервалом 1 и 5 минут, поэтому часто возникали проблемы и приходилось оптимизировать конфигурацию.
С интервалом 15 минут проверялось только место на диске.
Спасибо, интересно увидеть продолжение!

Smithson Aug 18 2016 at 11:55

Продолжение вот — Nagios — мониторинг vmware, CMC-TC, Synology, ИБП, принтеров и совсем немного Cisco

Show the best of all time