Pull to refresh
138.98

Мы получили GOLD на эксплуатацию ЦОД TIER III — финальная ачивка после T-III на проект и T-III на готовый объект

Reading time 4 min
Views 7.7K


Дата-центры оцениваются по уровням отказоустойчивости от I до IV. Эти уровни бывают TIA (не требующие проверки, просто по заявлению) и Uptime Institute (с жесткой сертификацией). TIER III предполагает возможность работы при выходе из строя любого из узлов в любом месте инфраструктуры. Если это труба с хладагентом — должна быть вторая такая же. Если это топливный бак, то должен быть второй запасной. Если это охлаждение — должны быть резервы по чиллерам N+1 и т.п.

Сначала это соответствие уровню TIER III устанавливалось по проекту. Мы защищали документацию: грубо говоря, инженеры Аптайма «зачёркивали» любой узел и смотрели, сможет ли работать остальное. Этот квест проходят многие.

Следующий шаг — пройти сертификацию по готовому объекту, то есть подтвердить соответствие документации и принципам отказоустойчивости уже на реализованном объекте. Это самое сложное в России, потому что заявить в плане и построить — две большие разницы. Особенную прелесть процессу добавляли заказчики, которые уже принесли на площадку свой продуктив. Поэтому пройденная проверка — очень круто.

Третий шаг — мы получили сертификацию по эксплуатации. То есть подтвердили, что команда и все процессы соответствуют принципам Uptime. Таких ЦОДов в России всего 2 штуки.

Что ещё нужно знать про эти сертификаты


TIA TIER 3 получают «просто так» по заявлению «наш проект соответствует рекомендациями TIA». Поэтому дальше мы этот тип не рассматриваем, а говорим про TIER III по Uptime Institute.

Там три типа сертификатов: проект (даётся один раз на проект, сгорает через два года), объект (даётся на построенный объект и подтверждает тот факт, что то, что получилось — всё ещё TIER III, а не TIER II, например). Сертификат на объект — вечный. Третий тип — сертификат на эксплуатацию, где регулярно проверяется уровень центра.

Проверяют раз в 1-3 года, в зависимости от уровня готовности, который показали при последней проверке. Такая частота — следствие общего правила, что в среднем 70-90% даунтаймов происходят по вине человеческого фактора. То есть ЦОД 10-летней давности без свежего подтверждения сертификата на эксплуатацию может преподнести какие угодно сюрпризы. Регулярные сертификаты по эксплуатации делятся на три типа: Gold, Silver и Bronse. Если вы проходите квест без сучка и без задоринки — дают Gold, он требует повторной проверки через 3 года. Если прошли с замечаниями «на четвёрку» — то раз в 2 года Silver. Хуже всего Bronse — это прохождение на «удовлетворительно» со сроком годности сертификата в 1 год.

Мы получили Gold.

Как шла проверка


Парни из Аптайма сначала приехали сертифицировать нам объект (после того, как мы построили его по сертифицированному проекту). В этот момент получать третий сертификат по эксплуатации было рано — по моей оценке нужен примерно год после запуска ЦОДа, чтобы устаканить все процессы и полностью обучить команду эксплуатации.

Чуть позже мы позвали их ещё раз с аудитом перед сертификацией. Смысл аудита — проверить, что не так, что нужно дорабатывать и дать кучу рекомендаций по улучшению работы. В нашем случае было именно так.

Через десять месяцев они приехали ещё раз на три дня. Первые несколько часов просто ходили по объекту, ориентировались, заглядывали в разные углы и водили пальцами по труднодоступным местам, всячески радовались. Потом всей толпой сели в наши помещения для админов (тёплый офис с кухней) и обложились документацией. Два дня только проверяли соответствие бумажек друг другу, плюс знания людей о них.

Ещё один вид активности — звали определённых инженеров (например, диспетчера) и говорили: «Такая-то авария, что будешь делать?». Он отвечал по регламенту действий, его отпускали.

Что вообще проверяют на сертификации


  • Рабочую нагрузку на персонал. Например, у нас достаточно долго шерстили рабочие графики диспетчеров, чтобы каждый из них вырабатывал не больше, чем положено по ТК для такой должности. Сверяли каждую смену, росписи в журналах (что именно этот человек был в смене) и потом считали помесячную наработку.
  • Знание аварийных процедур (кто и что делает).
  • Соответствие всяких формальных сертификатов, дипломов и так далее занимаемым должностям. Кто отвечает за пожарку, за первую помощь и т.п. — актуальность знаний.
  • Должностные инструкции и их актуальность, описание всех процессов и процедур, инструкции на каждый случай.
  • Процедуры проверки оборудования и вообще обслуживания — чтобы все инструкции точно соблюдались и охватывали нужные процессы под конкретный объект. В нашем случае — чтобы все инструкции соответствовали фактическому расположению агрегатов и охватывали все ситуации. Процедуры открытия-закрытия смен, внесение данных об оборудовании, процедуры тестирования и т.п.
  • Как идёт обучение персонала и как проводятся регулярные тренировки по аварийным ситуациям.
  • Как обновляется внутренняя библиотека с «опытом эксплуатации», как устроены процессы расширения по питанию, охлаждению, как выносится-заносится оборудование и т.п.

В нашей ситуации больше всего ковыряли данные по персоналу и журналы смен. На этой сертификации к технике прикасаются по минимуму — предполагается, что всё было сделано на стадии получения сертификата Facility.

Советы


Как я говорил, лучше проходить где-то через год после начала эксплуатации новой командой, потому что одна из частей проверки — как люди нашли недостатки проекта (или развивали ЦОД от проекта), как изучали оборудование и что исправили «по живому» уже на запущенном дата-центре.

Из недочётов: например, на этапе сертификации выяснилось, что нужно делать максимально подробные инструкции. А у нас, к примеру, есть 6 одинаковых подсистем. У первой есть детальная инструкция по переключению в случае аварии. На второй было «делай аналогично 1» — придется менять, писать точно такую же, только свою инструкцию, чтобы по месту ничего не перепутали.

Ещё важно правильно оформлять все документы по улучшениям, в т.ч. журнал модернизации. Нужно понимать, что некоторые изменения вообще могут понизить уровень надежности ЦОД в целом.

Каких-то особых сюрпризов во время проверки у нас было. Есть лист требований, который надо тщательно изучать, и представлять, что каждый пункт будет ковырять сразу три параноика. До бумажек «докапываются» очень сильно, что, в целом, правильно — просто на обычных проверках никто не строит корреляции между разными документами, а тут —вполне, и довольно глубокие.

Например, после экскурсии они попросили нас выгрузить точную карту того, как и где они ходили по объекту — это делается по системе контроля допуска, по видеонаблюдению.

Еще несколько ссылок про наш ЦОД:



Собственно, если вы готовитесь к такой проверке, с удовольствием отвечу на вопросы в комментариях.
Tags:
Hubs:
+20
Comments 4
Comments Comments 4

Articles

Information

Website
croc.ru
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия