Pull to refresh
VK
Building the Internet

ЦОД: модель для сборки

Reading time 6 min
Views 28K
Меня зовут Сергей Кубасов, я заместитель технического директора Mail.Ru Group. Недавно на форуме DCDE я рассказывал о нашем опыте создания и организации собственного центра обработки данных. Теперь я решил поделиться нашими открытиями с читателями Хабра.


Как это было


В начале истории нашего собственного ЦОДа мы сотрудничали с пятью сервисными организациями, которые обслуживали кондиционирование и вентиляцию, дизель-генераторные установки, источники бесперебойного питания, автоматику по электричеству и систему газового пожаротушения. На тот момент казалось, что это лучшее решение, т.к. «одни и те же люди» строят и эксплуатируют — то есть знают систему от и до.

Проработав таким образом в течение трех лет, мы подвели итоги и составили список самых серьезных рисков, с которыми можно столкнуться при таком режиме работы. Первый — oversale услуг; это когда подрядчик обещает среагировать на аварийную ситуацию в течение пяти часов, но не может соблюсти этот срок, если авария произойдет еще у кого-то из его клиентов. Например, если он обслуживает три объекта и на двух уже случилось ЧП, то на третий он не успеет не только в течение указанного в контракте времени, но и в любые сколько-нибудь адекватные сроки. Кстати, здесь играют свою роль и географические особенности и загруженность дорог Москвы. Как ни старайся, в час пик быстрее, чем за два часа, на объект, находящийся на окраине города, не доехать.

Второй риск при использовании полного спектра услуг от подрядчиков связан с поставкой запасных частей и расходных материалов. При покупке пакета услуг у подрядчика тот обязательно накрутит к стоимости не меньше 10%. Мы столкнулись с наценкой в 50–100% от базовой цены, за которую эти же детали можно купить в «соседнем магазине». При этом подрядчик пытался экономить еще и на сроках, затягивая поставку до 4-6 недель, в то время как расходники порой были нужны прямо сейчас, или срочные поставки ЗИП предлагались также по завышенной цене «за срочность».

Ну и последний, но немаловажный момент — то, что после длительного сотрудничества некоторые компании расслабляются, и вне зависимости от того, насколько критическая сложилась ситуация, реагируют исключительно после оплаты. Случился форс-мажор, а подрядчик говорит, что готов приехать к вам только после того, как вы переведете деньги за услуги и они поступят на счет (в течение 1-2 банковских дней). Что до этого произойдет с оборудованием, оставшимся без кондиционера или резервирования электричества, думаю, всем понятно.

После оценки всех рисков мы приняли решение создать собственную службу эксплуатации.

Сейчас проекты Mail.Ru Group размещены в пяти арендованных ЦОДах и в нашем собственном дата-центре.

Начинка: сервисное обслуживание ЦОД


В нашем ЦОДе (общая площадь — 2100 кв. м, в здании находятся порядка 450 стоек, оборудование на которых способно потреблять до 4 МВт электроэнергии) мы создали собственную систему сервисного обслуживания дата-центра. Ее можно условно поделить на две составляющие.

Обслуживание инженерных систем — энергоснабжения, вентиляции, ДГУ, ИБП, системы пожаротушения и прочего. Направлением руководит ведущий инженер-электрик, у которого есть дежурные инженеры, работающие по сменному графику, а также инженер по кондиционированию и вентиляции, обслуживающий весь объект. Именно эти люди выполняют ежедневные обходы, реагируют на инциденты, чинят неисправности прямо на месте, без обзвонов и выяснения, кого звать и как спасаться. Таким образом, мы обеспечили для своего ЦОДа моментальное реагирование на любое ЧП. Кроме того, сотрудники сами проводят плановые работы и измерения, исправляют недочеты в работе системы, обеспечивают модернизацию объекта.

Обслуживание парка серверного оборудования. Этим направлением управляет руководитель службы hardware-инженеров. Также сюда входит дежурная смена. Их основная задача состоит в мониторинге и обеспечении реагирования: проще говоря, если они видят вместо зеленого сигнала красный, им необходимо открыть соответствующую инструкцию, выяснить, кто отвечает за подобные ситуации, и связаться с этим человеком.

Мониторинг как залог здоровья ЦОДа


Кстати о мониторинге. В работе ЦОДа чрезвычайно важно вовремя обнаружить отклонение от приемлемых показателей и оперативно на него среагировать. Естественно, грамотный мониторинг здесь играет главную роль. Мы организовали наблюдение за всеми критически важными элементами нашей системы, при этом стараясь не забредать в технологические дебри, когда для обслуживания самой системы мониторинга требуется еще одна служба.

Электричество

Состояние ИБП мы мониторим с нескольких сторон, так как это ключевой элемент всей системы. Здесь у нас задействовано несколько систем контроля; например, при каких-либо изменениях в состоянии сети всему руководящему составу службы эксплуатации прилетают SMS с информацией о сбое. На рассылку подписано порядка шести человек, из которых кто-нибудь обязательно отреагирует и примет меры для устранения неисправности.

Для мониторинга состояния вводных линий мы решили использовать не новомодные, а испытанные военные технологии, применяющиеся в ракетных шахтах. Это обычные щиты управления на лампах: горит зеленая лампа — все отлично, горит красная — ЧП. В случае с навороченной системой мониторинга возможна ситуация, когда ЦОД рванул, а ты об этом даже не узнаешь, потому что занят починкой самой системы. А наши щиты управления (при себестоимости в несколько тысяч рублей) очень надежны — там попросту нечему ломаться!

Температура и влажность

Другой важный момент — контроль температуры и влажности в ЦОДе. Мы разработали систему мониторинга этих показателей, при этом тоже взяли самое дешевое решение –сенсоры, которые собирают статистику и визуализируют ситуацию на карте. Мы не стали использовать коробочное решение, а просто купили порядка сотни датчиков и сами собрали такую систему, которая постоянно показывает, в каком углу здания у нас какая температура. В случае изменения в допустимых пределах она также шлет SMS ответственным и выдает алерты в централизованную систему мониторинга.

Чеклисты обходов и допустимые пределы

Если раньше у нас были просто инструкции обходов, то теперь мы сделали чек-листы. Чек-лист представляет собой бумажку, в которой написано, на что нужно смотреть во время обхода, и указаны нижний и верхний допустимый предел для каждого пункта. Также есть графа, в которой описано что надо делать, если значение вышло за указанные пределы. По результатам каждого осмотра у нас формируется заполненный чек-лист; обходы производятся каждые 4 часа. Заполненные чек-листы подшиваются в журнал, в который в любой момент можно заглянуть и узнать, какая ситуация была вчера или, допустим, прошлой весной. Журнал у нас самый обычный, бумажный; мы выбрали такой вариант хранения данных потому, что люди, которые занимаются электрикой, порой очень далеки от IT-технологий, а проверить показатели им бывает необходимо. Достать папку с полки, открыть и посмотреть нужную информацию может человек любой квалификации; мы просто устранили еще один барьер на пути реагирования на аварийную ситуацию.

Стратегия размещения технологических отверстий и другие открытия


К сожалению, на практике далеко не все проходило так гладко. Многие вещи при создании дата-центра мы выясняли исключительно на собственном горьком опыте. В итоге нам удалось разрешить все экстренные и непредвиденные ситуации, но некоторые случаи до сих пор вспоминаем со смехом и содроганием одновременно.

Были и курьезные случаи, которые могли привести при этом к очень серьезным последствиям. Например, мы доверили подрядчикам закупку кондиционеров для ЦОДа. Как выяснилось позже, подрядчики ориентировались на то, что было массово представлено на рынке, и остановились на одном из простых решений от одной известной компании.

Для обеспечения должного уровня redundancy, мы используем двухконтурные кондиционеры. Во время регулярной проверки, мы с удивлением обнаружили, что на одном испарителе температура кипения хладагента составляет нормальные и ожидаемые +3°C, а на другом она опускается до -0,5°C. То есть наш кондиционер превратился в морозильную камеру. Причем это происходило не в любой момент, а только при определенных погодных обстоятельствах.



Выяснилось, что инженеры ошиблись в месте размещения испарителей относительно воздухозаборного отверстия — они были смещены от центра, а в результате воздушный поток и тепловая нагрузка распределялись между контурами неравномерно. Этот фейл со стороны производителя мы в итоге починили очень просто — пропилили в корпусе недостающее окно.



Итоги


После всех пертурбаций и изменений нам удалось организовать такое сервисное обслуживание, о котором раньше можно было только мечтать. Мы сократили время реакции на инцидент с двух часов до пяти минут, оптимизировали закупки запчастей и расходников, сократили затраты на обслуживание.

В собственном ЦОДе мы постоянно совершенствуем инженерные системы, работаем над модернизацией системы мониторинга и диспетчеризации. Так как мы сами эксплуатируем систему, у нас есть возможность анализировать существующие недостатки и принимать меры по их устранению.

Три года мы работали исключительно с подрядчиками. Два года назад у нас появилась собственная служба эксплуатации, которой мы довольны. Конечно, мы продолжаем пользоваться услугами третьих лиц, но теперь в рамках сокращения рисков. У нас есть собственные инженеры, которые в одиночку обслуживают целый объект. На случай, если такой человек по какой-то причине не может выйти на дежурство, у нас подписан сервисный договор с минимальной стоимостью на каждую из систем — просто для того, чтобы в случае необходимости нам было кому позвонить и затребовать помощь.

Еще один большой бонус — теперь у нас есть квалификация и большой опыт для контроля работы подрядчиков. Так как мы сами обслуживаем наш ЦОД, то можем оценить качество работы сторонних компаний: от комплексных решений до сварочного шва. И, естественно, мы имеем возможность сами выбирать исполнителя работ. Мы не завязаны на какую-то сервисную организацию: можем решить проблему сами, а можем заказать осмотр и ремонт у сторонней компании.

Накопленный опыт мы применяем и в арендованных ЦОДах. Надеюсь, что и вам он будет полезен — а может быть, вы захотите поделиться собственным в комментариях.
Tags:
Hubs:
+48
Comments 9
Comments Comments 9

Articles

Information

Website
vk.com
Registered
Founded
Employees
5,001–10,000 employees
Location
Россия
Representative
Миша Берггрен