Pull to refresh
0
King Servers
Хостинг-провайдер «King Servers»

Аварии в дата-центрах, которые было (почти) невозможно предусмотреть

Reading time4 min
Views66K


Несмотря на все старания проектировщиков обеспечить дата-центры надежной системой защиты от сбоев и аварийных ситуаций, аварии все же случаются, причем их появлению может предшествовать целая цепочка событий. Это иногда приводит к сбою в самых надежных системах защиты от «неприятностей», и работа ДЦ прекращается.

В продолжении — несколько случаев, как давних, так и произошедших совсем недавно, которые показывают, что некоторые ситуации просто невозможно предусмотреть.

Ураган Сэнди: отказ генератора



Вот так доставлялось топливо

Когда на всем Западному Побережью США бушевал ураган Сэнди, в этом регионе, практически везде, отключилось электричество (октябрь 2012). Кроме ливня и ураганного ветра, ситуация усугублялась и массами соленой воды, заливающей Манхэттен и многие другие регионы и города.

На 18 этаже высотного здания по 75 Broad Street, Нижний Манхэттен, стояли аварийные генераторы, готовые обеспечить дата-центр Peer 1 электричеством в случае выхода из строя основной системы энергоснабжения. Генераторы начали работать сразу же после того, как соленая вода залила подвалы высотки и ее лобби.

К сожалению, вода вывела из строя еще один критический для всей системы элемент — топливный насос, который подавал горючее наверх. Дело в том, что после 9/11 в Нью-Йорке были введены новые правила хранения топлива в зданиях, хранить дизель, бензин или любое другое топливо на верхних этажах можно было только в ограниченном количестве. Поэтому, как только генераторы на 18-м этаже исчерпали запасы топлива, вся система остановилась, поскольку новое горючее не подавалось.



Вместо того, чтобы остановить систему, команда Peer 1 начала вручную доставлять топливо, поднимая его на 17-й этаж, где размещался бак для топлива. А уже оттуда горючее поднималось на 18-й этаж, к генераторам.

Эта работа продолжалась несколько дней, пока не удалось запустить основную систему энергоснабжения. Стоит отметить, что клиентами Peer 1 были такие компании, как SquareSpace и Fog Creek Software.

Работа дата-центра поддерживалась только благодаря находчивости команды, хотя ручная доставка топлива, конечно, не предусматривалась ни одним из планов.


Все работает, и это отлично

Летающий внедорожник и Rackspace




Еще более необычный случай произошел в 2007 году, 13 ноября. Тогда в дата-центр Rackspace влетел внедорожник. Водитель, страдающий диабетом, потерял управление, потеряв сознание. Внедорожник ускорился (видимо, водитель в бессознательном состоянии надавил на педаль газа), вылетел за пределы дороги, и врезался (будучи в воздухе) в строение, где размещалась энергетическая система дата-центра Rackspace.

Система охлаждения дата-центра перешла на вспомогательную систему энергоснабжения, и работа продолжалась без проблем. Основное оборудование также без проблем перешло на аварийное энергоснабжение. Но потом начались проблемы — как оказалось, массивные охладители не перезапустились, остановившись еще во время первого сбоя электроснабжения. Два охладителя так и не заработали, и работники дата-центра не смогли их ввести в строй в течение в нужное время.

В результате оборудование начало перегреваться, и команда инженеров приняла решение выключить ДЦ, чтобы оборудование не вышло из строя.

Остановить оборудование пришлось на пять часов, в течение которого сайты и сервисы клиентов дата-центра не работали. В результате Rackspace пришлось компенсировать своим клиентам убытки, в размере 3,5 миллионов долларов США.

Проблемы у Samsung




20 апреля 2014 года случилось возгорание в офисном здании в г. Гвачон (Gwacheon), Южная Корея. Пламя быстро распространилось по всему зданию, не обойдя и ДЦ Samsung SDS. Огонь и дым вышли за пределы здания, и были хорошо видны издалека.

Всех сотрудников Samsung, а также сотрудников других компаний, работавших в этом здании, эвакуировали. Пожар не уничтожил ДЦ полностью, но нанес ущерба достаточно, чтобы пользователи гаджетов от Samsung не могли получить доступ к своим данным.

Доступ к данным пользователи получили только после того, как вошел в строй вторичный дата-центр в этом же городе. После этого последовали официальные извинения от руководства компании.

Возгорание кабельного канала




Еще одно короткое замыкание с последующим возгоранием обшивки кабельного канала в Fisher Plaza, Сиэттл, привело к неработоспособности ряда сервисов, включая Authorize.net, Bing Travel, Geocaching.com, AdHost и ряда прочих ресурсов. Локализовать проблему удалось только к утру (все случилось 3 июля 2009 года).

При этом ряд сервисов возобновил работу в 10 утра, прочие сервисы не работали еще несколько часов. Компания Fisher Communications, которой принадлежал пострадавший дата-центр, потратила более $10 млн на ремонт и замену оборудования.

Пламя в Айове




Днем 18 февраля 2014 года дата-центр, обслуживающий работу государственных сервисов и служб, работал вполне нормально. В этот день штат должен был осуществить ряд платежей государственным сотрудникам, в размере $162 млн. По иронии судьбы, именно в этот день в дата-центре случилось короткое замыкание.

При этом команда инженеров несколько дней подряд готовила объект к встрече с совсем другой неприятностью — последствиям снежной бури, предсказанной на вечер 18 февраля.

После того, как случилось короткое замыкание, дым распространился по всему зданию, и сотрудников эвакуировали. Сработала противопожарная система FM-200, в результате чего пожар был локализован. При этом система, ответственная за контроль поступления энергии в ДЦ, перегрелась и расплавилась.

Сотрудники смогли быстро наладить поставки энергии по другому каналу, и энергоснабжение возобновили через несколько часов. Тем не менее, без доступа к инфраструктуре ДЦ возобновить его работу было невозможно. А пожарные и полиция не пускали саппорт в здание, поскольку внутри было много дыма. Только через 3,5 часа сотрудники смогли зайти в ДЦ. Все это время ничего не работало, платежи не ушли.

Восстановить работу ДЦ удалось только в 9 вечера (сам пожар начался в 3 вечера), и после этого можно было начать проводить платежи.

Amazon и сварка




9 января 2015 года в большом здании, где строился дата-центр Amazon, случился пожар. Проблема возникла из-за сварщика, который случайно поджег стройматериалы, находящиеся рядом. Небольшое пламя быстро превратилось в огенный шторм третьей категории, который пришлось долго тушить. Султан дыма был виден на много километров от дата-центра. Общий ущерб, причиненный компании, составил $100000.

Правда, клиенты Amazon не пострадали, поскольку объект еще не был введен в эксплуатацию.

Вместо вывода


В большинстве случаев аварийная ситуация возникла очень неожиданно, выходя за рамки действий, предусмотренные планом и инструкциями. Тем не менее, в некоторых случаях с проблемой удалось справиться, но в других — компании, как владельцы ДЦ, так и клиенты, терпели существенные убытки.

А какие у вас возникали проблемы и аварийные ситуации? Как вы с ними справлялись?
Tags:
Hubs:
+30
Comments23

Articles

Change theme settings

Information

Website
king-servers.com
Registered
Founded
Employees
11–30 employees
Location
Россия