23 марта в 11:57

Мониторинг инженерной инфраструктуры в дата-центре. Часть 2. Система энергоснабжения

Продолжаем серию статей про работу систем мониторинга инженерной инфраструктуры в наших дата-центрах. В первой части разобрали теоретические моменты, сегодня обратимся к практике. Начнем с самой критичной системы – энергоснабжения. Перед прочтением рекомендуем освежить знания про устройство электропитания в дата-центре.


Одна из схем для мониторинга системы энергоснабжения в дата-центре OST-2.

Особенности мониторинга системы энергоснабжения


В мониторинге энергоснабжения есть свои нюансы. Вот несколько общих советов для тех, кто только собирается проектировать и настраивать систему.

Мониторьте все что можно. В системе энергоснабжения нет неважных участков. Отслеживайте основные параметры каждого элемента системы: от трансформатора до PDU в стойке.

Мониторьте систему в целом. Мало просто поставить все оборудование на мониторинг. Важно отобразить существующие взаимосвязи между всеми элементами системы. Это поможет быстрее выявлять неполадки и не запутаться в десятках оповещений об ошибках.

Принципиальные схемы, карты и прочая визуализация лучше всего подойдут для этих целей. Картинка в начале поста – как раз пример такой схемы. Когда в стойке пропадет питание, с помощью таких схем будет легче понять, что стало причиной аварии.

Опрашивайте оборудование как можно чаще. Частый опрос поможет не пропустить важные события в жизни системы энергоснабжения: отключение городского питания, ошибки, по которым не завелся ДГУ. Такие критичные узлы, как главный распределительный щит, ДГУ, ИБП, рекомендуем опрашивать каждую секунду.

Мониторьте балансировки по фазам и парные нагрузки. Это производные показатели системы энергоснабжения. Они рассчитываются непосредственно в системе мониторинга на базе информации, полученной от оборудования.

Собирайте статистику. Только онлайн данных и оповещений мало, нужно собирать долгосрочную статистику. Она пригодится для многих вещей – от управления мощностями (capacity management) до расчета бюджета на закупку ЗИП.

Пара слов о нашем мониторинге


Система работает на базе open-source решения Nagios. Он собирает значения параметров оборудования и отправляет уведомления при достижении пороговых значений. Всего развернуто 8 стендов с Nagios.

Информация по 7 дата-центрам и всем системам мониторинга собирается в едином интерфейсе на базе Thruk.


Веб-интерфейс Thruk.

Статистику и графики на ее основе строим с помощью встроенных служб Nagios и Cacti.

Еще один способ представления информации – принципиальные схемы. Такой тюнинг процесса структурирует и упрощает восприятие большого объема данных. Целостную картину можно получить при одном взгляде на монитор.


Схема для мониторинга энергоцентра и машинных залов дата-центра NORD-4.

Давайте посмотрим, что, как и на каком оборудовании можно отслеживать.

Трансформаторы


При высокой нагрузке трансформаторы нагреваются. Если произойдет перегрев, то сработает защита и трансформатор выключится. Благодаря мониторингу мы можем вовремя отследить перегрев и принять необходимые меры.

Если трансформатор еще не запущен в эксплуатацию, то на корпус можно установить термоэлектрические пирометры. В уже работающих трансформаторах используем дистанционные инфракрасные пирометры.


Так выглядят инфракрасные пирометры.

Вводы на ГРЩ


Мониторинг на этом участке системы дает нам информацию о наличии электропитания от города и его характеристики по току, напряжению.

От каждого трансформатора в главный распределительный щит (ГРЩ) приходит три медных шины. Для получения данных о токах и напряжении на каждую шину устанавливается трансформатор тока. Его первичная обмотка подключена к шине, а вторичная обмотка замыкается на измерительный прибор – анализатор сети.

Аналогичным образом трансформатор тока крепится на шине в щите ДГУ.


Черные кольца на медных шинах – это и есть трансформаторы тока.


Анализатор сети крепится к дверце распределительного щита.

Система мониторинга опрашивает анализаторы сети по протоколу ModBus. Данные поступают на сервер мониторинга и отображаются в едином веб-интерфейсе Thruk.


Схема подключения анализаторов сети к системе мониторинга.

Аналогичным способом устроен мониторинг в остальных распределительных щитах (ЩР). Для каждой секции ЩР устанавливается свой анализатор, и суммарный – на весь ЩР.


Трансформаторы тока в распределительном щите машинного зала.


Анализаторы сети в распределительном щите машинного зала.

От анализаторов сети мы получаем порядка 20 параметров. Вот основные:

  • ток по фазам;
  • линейное и фазное напряжение;
  • частота;
  • мощность активная, реактивная и полная.


Некоторые параметры по ГРЩ в системе мониторинга.

Все основные параметры по ГРЩ отображаются на принципиальных схемах.



Гарантированное электроснабжение


По этой системе мы отслеживаем состояние щитов ДГУ, топливных баков и, конечно же, самих ДГУ. Данные от дизельных электростанций система мониторинга получает от панели управления ДГУ.


Панель управления ДГУ.


Схема подключения ДГУ к системе мониторинга.

Основные параметры ДГУ:

  • состояние: в авторежиме, в работе;
  • количество оборотов двигателя в минуту;
  • наличие ошибок в работе.

Обязательно отслеживаем уровень топлива в баках ДГУ, чтобы не остаться без горючего в час Х. Комплектация многих баков уже включает в себя механические датчики уровня топлива, которые подходят только для визуального мониторинга: к баку нужно подойти, чтобы увидеть, сколько там осталось. Это тоже вариант, но, чтобы избавиться от человеческого фактора и автоматизировать процесс, используйте цифровые датчики.


Список основных параметров ДГУ в системе мониторинга.

Бесперебойное энергоснабжение


Если в ИБП есть модуль для удаленного мониторинга, то сбор данных не представляет сложности: просто настраиваем опрос бесперебойников по протоколу SNMP.


ИБП изнутри. Красным отмечен модуль мониторинга, который подключается к серверу мониторинга.

Основные отслеживаемые параметры:

  • режим работы: питание от города/ДГУ, питание от батарей, работа на байпасе;
  • вольтаж и токи на входе и на выходе ИБП;
  • внутренняя температура ИБП.

Обычно ИБП умеют мониторить и параметры аккумуляторных батарей (АКБ):

  • вольтаж батарей;
  • уровень заряда батарей;
  • оценка времени автономной работы на батареях;
  • температура батарей.


Параметры ИБП в системе мониторинга.

Мониторинг PDU и АВР в стойке


Мониторинг PDU позволяет зафиксировать пропадание питания по одному или нескольким лучам в стойке с оборудованием. Для этого достаточно использовать PDU с возможностью опроса по протоколу SNMP. PDU с управлением и специализированным софтом тоже можно, но в этом случае добавится отдельный интерфейс.

То же самое касается и мониторинга стоечного АВР.


Подключение PDU к системе мониторинга.

Производные параметры: балансировка нагрузок по фазам и лучам


На основе данных, полученных от анализаторов сети в распределительных щитах, модулей мониторинга ИБП, PDU, в системе мониторинга рассчитывается несколько производных параметров.

Нагрузка по фазам. Если нагрузка распределена равномерно по фазам, тогда мощность кабеля и автоматов будет использоваться эффективно. Когда одна или две фазы перегружены, а одна или две недогружены, то возникает так называемый перекос фаз. Это, как минимум, будет означать, что имеющаяся мощность используется не оптимально. В худшем случае это приведет к отключению автомата и перегреву кабеля.


Нагрузка по фазам в системе мониторинга

Парные нагрузки на двух лучах. В наших дата-центрах резерв системы энергоснабжения 2N.

К каждой стойке подходит два независимых луча питания. И если что-то происходит с одним из лучей питания, другой берет на себя нагрузку вышедшего из строя. Получается, что каждый луч должен быть загружен только наполовину от номинальной мощности. Только в этом случае оставшийся в строю луч выдержит двойную нагрузку.

Для этого мы отслеживаем, чтобы нагрузка на одном луче не превышала более 50 % от номинала, а суммарная нагрузка на двух лучах – 100 % от номинала.

Если не отслеживать этот параметр, то можно “проморгать” ситуацию, когда у нас не останется резерва по второму лучу, так как парная нагрузка превышает номинальную мощность автомата.

Оба принципа должны соблюдаться одновременно. Рассмотрим это на практике. Допустим, у нас есть стойка с трехфазным питанием 32 А на фазу. Оборудование подключается к двум PDU. У каждого PDU по три секции (B1, B2, B3), каждая секция соответствует фазе, т.е. мы имеем дело с трехфазными PDU. Если мы соблюдаем вышеописанные правила, то получается, что суммарная нагрузка по двум лучам должна быть ниже 32 А (см. рисунок ниже).



Вроде все понятно, но давайте рассмотрим вот такой случай. В эту же стойку подключаем оборудование (см. рисунок ниже). Казалось бы, из 19,5 кВТ (три секции по 6,5 кВт) у нас всего занято 11 кВТ, и можно спать спокойно. Но в какой-то момент у нас выключается один луч, и вся стойка остается без питания. Произошло следующее. Мы перегрузили первую секцию (фазу) на одном из лучей. Суммарная нагрузка оказалась больше номинальной. Когда один из лучей взял на себя эту чрезмерную нагрузку, автомат выбило.




Парные нагрузки на первую секцию PDU (B1) в системе мониторинга.

Так парная нагрузка измеряется на уровне стойки. По такому же принципу мы отслеживаем:

  • парные нагрузки в секциях распределительных щитов машинных залов;
  • парные нагрузки на ЩР в целом;
  • парные нагрузки на ИБП.


Парные нагрузки на ИБП в системе мониторинга.

На этом остановимся. Задавайте вопросы в комментариях. Если у вас есть вопросы о балансировке нагрузки в стойках или распределительных щитах, пишите в комментариях, в личку или на consulting@dtln.ru.

В следующей статье поговорим про мониторинг холодоснабжения.

Еще статьи про мониторинг и энергоснабжение в дата-центре:

Часть 1. Мониторинг инженерной инфраструктуры в дата-центре. Основные моменты
Путь электричества в дата-центре
Как тестируют ДГУ в дата-центре
Автор: @dataline
DataLine
рейтинг 92,79
Крупнейший оператор дата-центров TIER III в России
Похожие публикации

Комментарии (8)

  • +1
    В силовые шкафы ставлю SIEMENS PAC3200 функциональность выше, цена таже как и у ABB M2M, прямой выход интернет порт, без костыля — преобразователя.Так что даже дешевле, тем более програмирую я SIEMENS АСУТП комплексные системы охлаждения, электроснабжения, производственные линии.
    PDU APC очень хороши, сильно облизывался, но в проект заказчику поставил дешевле.
    АВВ И APC СУПЕР, но дорого однако, заказчики сейчас бедные из-за курса доллара, приходится просчитывать на этапе функционального проектирования и искать экономически эффективные решения, без ущерба надёжности и функциональности.Пирометр ненадёжное решение, температуру трансформатора измеряют термодатчиком(термометр сопротивления), как и общую температуру в помещении электрощитовой.
    В мониторинге электропитания, также актуально видеть кратковременные скачки, и многократные затухающие колебания(проявляется как многократное перемигивание ламп освещения) происходящие на высовольтной стороне трансформатора или вводе, появляющиеся из-за переключений на электроподстанциях электроснабжающей организации, так как с ним не справляются даже именитые бесперебойники (типа APC,EATON), бывают зависают и даже иногда сгорают блоки питания, автоматика охлаждения. Данные качества электроэнергии с PAC 3200 позволяют предьявить электроснабжающей организации, требование снижения оплаты и даже позволяют сэкономить, так как какие то странные ночные перекоммутации в электросетях у нас поисходят с периодическим интервалом 2-3 мес.
    Вы как с качеством электроэнергии (поставщиком) боретесь?
    • +2
      По поводу анализаторов с Ethernet. Это удобно, если объемы небольшие. У нас реализован такой вариант в одном из залов, клиент очень настаивал. Но в общем случае для нас такой вариант не очень оптимален, и вот почему. К каждому анализатору придется свою кроссировку тянуть. На одном щите у нас до 4 анализаторов, в зале может быть до 12 щитов. Со всеми этими проводами мы потеряем в емкости кабельных лотков, потратимся на дополнительные коммутаторы и займем очень ценные для нас юниты под них.

      По поводу качества электроэнергии: у нас промышленные UPS, которые выдерживают достаточно большие скачки и колебания. Если идут частые пропадания (просадки) электричества от города, то спасут правильные настройки АВР (уставки и задержки), лучше переключится на ДГУ и переждать, решить проблему. Также аккуратно и с задержками переключаемся обратно на город, когда напряжение приходит в норму.

  • 0
    К каждому анализатору придется свою кроссировку тянуть. На одном щите у нас до 4 анализаторов

    Зачем, есть 5-8 портовый промышленный коммутатор на DIN рейку в электрошкаф. На производственных линиях ставлю такие, в серверную на учёт, для гальванической изоляции заводится оптикой с коммутаторов в электрошкафах. В ЦОД можно и медью там нет постоянных пусков 30-50 квт эл.двигателей как в производственом оборудовании.
    В вашем случае юнит и лотки свободны, в электрошкафу 4см на din рейке есть всегда. только расходы на коммутатор 10-15 т.р
    Иногда он-лайн именитые промышленные UPS при импульсных скачках в эл.сети, имеют свойство переключаются на байпас. Срабатывает защита в модуле выпрямителя.
    В итоге нефильтрованная сеть, при очередном всплеске через байпас в UPS убивает и глючит потребителей — серверы и пр.В маленьких проекта ДГУ нет, только АВР.
    Вызванный немецкий производитель развёл руками и сказал что в России отвратительные электросети, только бесплатно дал SNMP — интернет модули для дистанционного перезапуска
    .
  • 0
    Весьма наглядно. Расскажите чем вы схемы делаете.
    • 0
      Для создания этих схем используем SCADA-фреймворк собственной разработки.
      Данный фремворк включает в себя все свойственные SCADA-системам функции, позволяющие визуализировать состояния оборудования и информировать об аварийных ситуациях. Источником данных является система NAGIOS, которая подключена к фремворку с помощью сервиса MK-LIVESTATUS. Он позволяет оперативно получать аггрегированные данные по всему оборудованию площадок.
  • 0

    Да инструментарий для отрисовки схем озвучте.


    И что-то мне кажется скорость опроса 1 раз в секунду — это мечты.


    Тренды по этим параметрам, так же храните в базе?
    Алгоритмы, сроки хранения?

    • 0
      По инструментарию для схем см. выше.

      И что-то мне кажется скорость опроса 1 раз в секунду — это мечты.

      Для кого мечты, а для кого — реальность :) Да, штатные средства позволяют добиваться такой частоты опроса не для всех параметров, но у нас для этого есть собственная разработка.

      Тренды по этим параметрам, так же храните в базе?
      Алгоритмы, сроки хранения?

      Хранение статических данных организовано на базе rrd-файлов. В зависимости от параметра данные могу хранить до 5 лет.
  • 0
    По собственно разработке можно с Вами проконсультироваться?

    А вот для 200 стоек с оборудованием и 400 PDU от APC с интерфейсом SNMP приходиться немаленькую СКС организовывать.
    Одних коммутаторов 48 портовых нужно порядка 10 штук.

    При таких объемах оборудования можент Ваша разработка гарантировать опрос хотя бы 3-4 параметров с каждой PDU с частотой в 1 секунду?

    Про хранение, я имел ввиду использование каких-либо алгоритмов прореживания данных.
    Так как подозреваю, что без потери информации хранить все таки большие объемы данных не получиться.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Администрирование