72,00
рейтинг
20 декабря 2011 в 15:58

Разное → ЦОД в Ярославле: воплощение мечты последних пяти лет

«Билайну» нужно очень много вычислительной мощности для работы. Идея построить большой ЦОД и решить проблемы роста на 10 лет вперед витала с 2005 года. Я вкратце расскажу о том, с какими сложностями мы столкнулись, когда раздумывали о новом крупном объекте.


Новый дата-центр

Сильнее, выше, быстрее, дешевле


Первая проблема была в соотношении результатов и цен. Понятно, что строить ЦОД в Москве около уже имеющегося хочется, но не настолько сильно, чтобы тратить реально крупные суммы на строительство, и энергообеспечение. Поначалу мы отсмотрели около 30 объектов в Москве и области, но потом пришли к выводу, что экономически более обосновано строить где-то поблизости от столичного региона, но не непосредственно в нём. Тут есть ещё сложность: между ЦОД в Москве и новым ЦОД не должно быть больше 200 километров оптоволокна, иначе скорость света уже существенно скажется на лагах при синхронной репликации. Параллельно мы купили новые модели дисковых массивов и получили возможность протестировать асинхронную репликацию. Так стало понятно, что географически разносить центры можно.

Выбираем место


Основной показатель любого ЦОД – это количество электроэнергии, которое он потребляет. Мы посчитали темпы роста за последние 10 лет, аппроксимировали этот рост, скорректировали его после кризиса 2008-го и выяснили, что нужно 10Мвт для решения вопроса на ближайшее будущее. Учитывая, что подключать мощность кусками не выгодно, требовалось сразу подвести именно такую линию к центру.

Следующий фактор выбора – температура региона и его влажность. Чем холоднее место в среднем – тем меньше нужно энергии на принудительное охлаждение, и тем экологичнее и экономичнее работа ЦОД. С влажностью ситуация такая: если воздух сухой, на платах начинают скапливаться статические разряды, а если слишком влажный, «выпадает роса». Оптимальным местом по результатам оценки стал Ярославль, который близок к Москве, технически-обеспечен, где можно взять много электроэнергии, есть дешевая земля и где подходящий температурный режим (90-95% времени мы не используем активное охлаждение, то есть работаем с внешним воздухом).


Здание ЦОД, вид сверху

Оцениваем стоимость конструкции


ЦОД сразу решили делать модульным. После конкурса среди 15 крупных компаний было выбрано решение на базе AST (Smart Shelter). Основной элемент конструкции – огнестойкие самонесущие панели, которые соединяются «ласточкиным хвостом» и закрываются профилями, защищающими как от температурных воздействий, так и от попыток несанкционированного проникновения. Конструкция модульного ЦОД представляет собой шесть автономных модулей, полезной площадью каждого 500 квадратных метров.


Модуль. Снаружи в реальности выглядит как большая серая коробка.

В самом ЦОД используется множество разных систем, которые позволят пережить любые бедствия: защита от повреждения водой и огнём, температурная защита, физическая защита, защита от самой жестокой непогоды, внутренних пожаров, проникновения, дурака, ЭМ-полей и так далее. Каждый модуль имеет свою децентрализованную инженерную инфраструктуру. При необходимости отдельные модули могут быть демонтированы и оперативно перевезены на новое место. Если в один из модулей попадает метеорит, это не сказывается на работе других модулей.


Модуль внутри, снято не в новом дата-центре.

Подбираем начинку


Учитывая, что для самого центра можно было использовать любые решения, благо ограничений не было, мы сосредоточились на том, что позволит обеспечить минимальное потребление ресурсов, то есть будет выгодным и экологичным. Вообще, быть экологичным современному дата-центру выгодно: это совпадает с основной парадигмой сокращения потребляемого питания и оптимального расходования ресурсов. По отчётам консалтинговых компаний, получалось около 40 различных решений для построения систем охлаждения и поддержания бесперебойного питания. Мы сразу отмели технологи не относящиеся к инженерным системам ЦОДа связанные с водяным охлаждением серверов, управлением питанием и охлаждением серверов на уровне ПО или BIOS, поскольку этим можно заниматься параллельно с принятием решений по выбору технологий. Экзотические системы охлаждения — такие как охлажденные балки, глубоководное охлаждение и другие, а также экзотические системы первичной или вторичной систем электропитания – ультраконденсаторы, геотермальные источники, солнечные батареи, приливно-отливные системы питания, ветряные мельницы тоже быстро «отвалились». Остальные системы при прямом анализе не вызвали отторжения и были подвергнуты дополнительному исследованию.

Первичный отбор


Сначала думали про колесо Киота. Однако учитывая требования Tier-3, нужно было делать ещё два таких же резервных узла, что потребовало бы очень много пространства. С интересом смотрели на интегрированные в сервера ИБП – данная технология выглядела многообещающей, поскольку не требовала централизованного ИБП. С другой стороны, разного железа много (дисковые массивы, ленточные библиотеки, сервера типа high-end), а унифицировать его быстро не выйдет, поэтому пришлось отказаться. Данная технология может применяться только в гомогенной среде с точки зрения серверов и накладывает большие ограничения на архитектуру ЦОДа в целом. Нашей задачей было строительство универсального дата-центра, где будет уживаться разношерстное оборудование, которое производилось 10 лет назад, производится сейчас и будет в следующие 10 лет. Потом мы стали смотреть на термальное хранилище – но тут был необходим большой объем, для 10 Мвт просто астрономический. Тригенерация на турбинах или топливных ячейках с использованием адсорбционных или абсорбционных систем хорошо смотрелась, пока мы не посчитали кейс на сравнении стоимости владения систем тригенерации и ДДИБП с модулями ЦОД и freecoling. У нас получилось что бизнес кейс становится положительным после 30 лет использования. Высокоэффективные статические UPS – такие системы уже используем, хорошо представляем себе сколько стоит внедрение подобного решения, а значит можем сравнить с новыми решениями.

Питание


Самой интересной технологией с точки зрения экономической обоснованности оказалось ДДИБП — дизель-динамический источник бесперебойного питания. Его основной принцип в том, что он накапливает кинетическую, а не химическую энергию, как обычные системы ИБП на батареях.


Схема питания

Он работает по тому же примерно принципу, что и классические системы бесперебойного питания – при кратковременных сбоях или некачественном питании (неправильная синусоида переменного напряжения, колебания частоты, амплитуды и т.д.) используется накопленная кинетическая энергия, при долговременных пропаданиях электроэнергии включается дизель-генератор. Благодаря «волчку» переключение питания происходит очень быстро и незаметно для потребителей, то есть без прыжков напряжения, например.


Устройство ИБП

Охлаждение


Для охлаждения была выбрана система естественного охлаждения окружающим воздухом “Natural Free Cooling” — это кондиционирование воздуха внутреннего пространства МЦОД основанная на принципе теплообмена между наружным воздухом и воздухом, циркулирующим в МЦОД, при этом обеспечивающая чистоту воздуха и контроль влажности. Система представляет собой два разомкнутых отдельных контура. Во внутреннем контуре циркулирует воздух ЦОД, в наружный контур подается внешний воздух. Основным элементом системы является рекуперативный теплообменник, в котором происходит теплообмен между наружным воздухом окружающей среды и воздухом в помещении МЦОД. Нагретый воздух удаляется из горячих зон вытяжными воздуховодами, охлажденный воздух подается в холодные коридоры. Использование адиабатического охлаждения (впыск воды в поток воздуха внешнего контура) позволяет увеличить диапазон температур работы системы охлаждения без подключения компрессорного контура холодоснабжения от +19 до +24 градусов Цельсия.


Территория. Деревья посажены так, чтобы не мешать ветру и охране.

Интересно, что при расчёте используемых технологий оказалось, что итоговая стоимость владения bleeding edge-технологическими решениями оказалась ниже при меньших сроках внедрения.

Основной параметр оценки эффективности ЦОД в этом плане — Power Usage Effectiveness, его физический смысл – это соотношение всей энергии потребляемой ЦОД к количеству энергии, потребляемой полезной нагрузкой. По нашим расчетам среднегодичный показатель PUE не будет превышать 1,3.

Если темы интересны, можно сделать отдельный топик о системах охлаждения и бесперебойного питания ЦОД, плюс отдельно рассказать о том, как мы синхронизируем данные и защищаемся от различных сбоев. В комментариях можно задавать вопросы вообще на любую тему: либо отвечу сразу, либо пообещаю ещё топик.
Автор: @a3koz

Комментарии (81)

  • +3
    почти как будущая штаб-квартира Apple



    • 0
      Нимб, что ли? )
      • +9
        Та, не. В центре мужик стоит и Ipad с angry birds на веревочке крутит. Стробэффект.
    • 0
      похоже на фотографию первых миллисекунд ядерного взрыва :)
  • +2
    Мы не сговаривались.
    Но в Купертино там офисы, а у нас — железо. Да и их объект побольше будет.
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Вперемежку. Одна из причин выбора именно Ярославля — хорошие IT-кадры в штат.
      • НЛО прилетело и опубликовало эту надпись здесь
        • +1
          Поставим первый модуль в начале 2013-го и сразу запустим в работу.
          • 0
            Примерные координаты стройки на карте можете показать?
            • +2
              • +1
                Спасибо. Недалеко от Пивзавода, получается.
                • +2
                  Админам недалеко будет бегать за пивом )
                  • +1
                    Или ЦОД будут охлаждать пивом! )
                    • +2
                      Предвидя следующий вопрос: нет, этот фактор не входил в основные критерии оценки места.
                      • 0
                        Да ладно! Вот так вам и поверили с первого раза! Парите тут влажность/охлаждение/стоимость/питание… Палитесь, что основной критерий- крупный пивзавод для охлаждения (мозга админов), а остальное- так, все само и подтянулось :)
                    • +6
                      Немного инфографики, извините за mad skills.



                      Надеюсь, я угадал с местом пивзавода.
                      • 0
                        ЦОД поменьше будет и по размерам и по потреблению пива.
                        • 0
                          а сколько пива потребляет пивзавод?
              • 0
                Хорошее место: удобный заезд из Москвы по кольцевой (Костромское ш.)

                А скажите, как дело с каналами обстоит? Я когда задавался вопросом почему в Ярославле нет крупных ЦОД пришел к выводу что всё из-за отдалённости от основных магистралей.
                • 0
                  Думаю, они в любом случае будут свой канал оптический делать.
                  • 0
                    Одного-то мало
                    • 0
                      Имеется в виду не один провод с моно жилой а своя магистраль :)
                • 0
                  Через Ярославль проходит магистральное кольцо. Сейчас уже есть 2 канала, плюс мы построим ещё. Будет минимум 3 логических канала.
      • 0
        живу в Ярике. Посморим…
  • 0
    Ох, сразу вспоминаю свой диплом. Он был у меня про ЦОД :)
    Интересно посмотреть уже более подробный проект. Т.к. там появятся некоторые проблемы, и вот интересно как их решать будите и сколько спотыканий возникнет. Я в дипломе вообще ЦОД на север закинул, чтоб прохладно было :)
    • 0
      А про что больше интересно? У нас много необычного в репликации, плюс интересные технические решения в охлаждении и питании. И насчёт охлаждения — не факт, что на севере не было бы проблем с влажностью.
      • +1
        Ага, есть такое. Ещё насекомые в том регионе составляли не малую проблему. А так же с персоналом и электроэнергией. В общем вывод был в том, что при месте строительства нужно учитывать потребности и технические возможности местности. У меня небольшой ЦОД был. У вас конечно глобальное решение.
  • 0
    Неужели системы питания на солнечных батареях настолько плохи, или всё таки финансовая сторона вопроса дала отбой?
    Или может всё дело в цветовом дизайне крыши?
    • +4
      Во-первых, на 10 МВт нужна была реально огромная площадь — 70 Га, что уже само по себе — проблема. Во-вторых, само электричество экологичное, но вот утилизация и производство батарей — не очень. Дело в том, что утилизировать их не очень-то получается при том, что в состав входит мышьяк. Apple в Майдене уже столкнулась с похожей проблемой, поэтому вариант сразу отклонили.
    • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    Т.е. основной DC будет в Ярославле, а backup site в Москве?
    Также интересно узнать про ваши DRT.
    • 0
      Да, почти так. На практике часть сервисов будет работать в одном центре, часть — в другом, DR-сайт пока останется в Москве. Плюс планируется ещё один крупный сайт за пределами Москвы. Про системы репликации, защиту от ошибок и план на случай прилёта пришельев лучше расскажу в отдельном топике.
      • 0
        С нетерпением ждем продолжение темы.
  • 0
    Не забудьте учесть, что парковка для транспорта сотрудников не обозревается со стороны ЦОД за счет деревьев и плохо просматривается со стороны поста охраны за счет самих автомобилей.
    • 0
      Да, безопасники ещё проработают, будет ряд изменений.
  • 0
    а что такое «колесо Киота»?
  • +1
    А расскажите, пожалуйста, про асинхронную репликацию. И про синхронную, в принципе, тоже. Какой лаг считается уже неприемлимым?
    • +3
      При каждой операции записи основного сервера на массив происходит копирование изменения на второй массив. Пока запись на втором массиве не завершится – операция записи на основном сервере не считается завершенной. Получается полная копия данных на втором массиве. Это синхронная репликация, плюс бывает асинхронная репликация, когда операция записи применяется к резервному массиву не сразу, а с определенными промежутками времени и первый массив не ожидает завершения операции на втором. При аварии на основном сервере или при переключении, массив второго сервера докатывает транзакции до точки падения основного сервера. Данный тип репликации не так требователен к каналам с точки зрения лагов, что позволяет в какой-то степени убрать ограничения по расстоянию между массивами. Именно такой тип репликации планируется к применению после ввода нового ЦОД в эксплуатацию.
      • 0
        это какое-то ваше программное решение, или, к примеру, oracle data guard?
        • 0
          Скорее всего какое-нибудь решение от вендоров СХД — у NetApp'a есть metro-cluster, у EMC тоже было что-то подобное.
        • 0
          это Veritas Cluster Server.
  • +1
    Тема очень интересна буду ждать еще топиков от Вас. Интересно все от какие технологии будут использоваться до железа и почему выбрали именно это решение.
    • +1
      Ок, спасибо, будет ещё топик. Не сразу, но будет.
  • –2
    Первая стоящая статья от Вымпелкома :)
    • +11
      Спасибо за позитивный троллинг :)
  • –4
    Скорость света снижается… гм… сильно
  • 0
    А какие системы хранения, если не секрет? И каким образом будет осуществляться репликация в рамках этих определенных систем хранения?
    • +2
      High-End системы хранения от HP. Про репликацию уже обещал отдельный топик.
      • 0
        О это интересно. XP или 3PAR? И еще один нескромный вопрос :) А какие были другие варианты по системам хранения?
        • +1
          Из High-End у нас только XP, помимо них есть mid-range разных производителей, но они не тянут одновременно и репликацию и рабочую нагрузку. К тому же они не поддерживают асинхронную репликацию.
  • +1
    Очень интересен вопрос бесперебойного питания.
    Как производится техобслуживание не резервированного оборудования?
    Это же какая наработка на отказ механической части должна быть для критической группы электропотребителей!

    Я был бы очень рад отдельный топик на эту тему проглотить)
    • +2
      У нас по всему электроэнергетическому оборудованию двойной резерв по требованиям надёжности. Расчётный срок службы ДДИБП — 25 лет. Про остальное подробнее в отдельном топике.
  • –1
    Эх, когда же в России нормальные архитекторы появятся
    • +1
      ты будешь первым?
  • +2
    Интересно, какой КПД у этого ИБП с маховиком-накопителем?
    • 0
      Расчётный КПД — 97%.
  • +2
    Хотя я и далек от темы ЦОД, но читать было очень интересно. Продолжайте пожалуйста!
  • 0
    Я бы с удовольствием почитал про сетевую часть решения
    • 0
      В данный момент запущен RFI на сетевую часть, по результатам раскажем.
  • +3
    Статьи билайна на хабре в последнее время доставляют. Приятно читать.
  • 0
    Напишите подробнее про ДДИБП. Мне какой-то адский агрегат представляется, многотонный ротор, невыносимый вой и грохот, бригада перемазанных смазочным маслом слесарей:)
    • +1
      У нас было примерно такое же представление, съездили посмотрели как работают в Европе, и поняли, что не так все страшно. У ряда производителей шумно, даже одноразовые ушные затычки используются, вот они:



      У нашего поставщика такого нет, и в результате шума не больше, чем в обычной серверной.
  • 0
    почему круглый?
    • 0
      Оптимальное соотношение прощади к длине периметра.
      • 0
        Чем конкретно это хорошо для датацентра?
        • 0
          Такая форма оптимальная с точки зрения рационального использования ресурсов, если нет требования построить прямоугольный объект.
          • 0
            Каких именно ресурсов? На чем экономия? На материале стен? На кабелях? На чем-то еще?
  • 0
    Вот работа моей мечты! Хотел бы я в таких ЦОДах поработать.
    • 0
      через неделю станет скучно и обыденно.
  • +2
    А какой архитектурное бюро проектировало здание?

    Жаль, что современный объект сделан с применением архаичных архитектурных решений — выглядит как привет из 80х.
    • –1
      Вы можете приложить ссылки на проекты, если хотите, финального решения по дизайну ещё нет.
      • +2
        Я написал вам сообщение в хабре.
  • 0
    Я искренне надеюсь что введением в строй нового ЦОДа в личном кабинете можно будет посмотреть статистику использования трафика (а не статические 51200 Кбайт как сейчас).
  • 0
    А не пробовали подключить к работе уже готовую сеть компьютеров Билайн.Интернет. Чтобы они не только в игры гоняли и на Одноклассниках сидели, но и выделяли по 10-20% вычислительной мощности в общий кластер. :)
    • 0
      Проще всего из этой сети ботнет построить :)
      • 0
        Тут основной вопрос как его использовать. А каналы связи между компьютерами «свои». Вопрос только в доступности процессоров и компенсации за их использование. Глядишь скоро появится тариф ЦОД#12, когда за то что ты пользуешься интернетом и даешь 12% CPU и 24% GPU 24х7, провайдер тебе еще будет 200 рублей доплачивать ;)
        • 0
          Учитывая, что, согласно договору, падение этих своих каналов длительностью до 3 часов падениями не считаются, то вычислительную мощность абонентов можно использовать исключительно в оффлайн режиме для проектов типа SETI@home и тому подобному.
          В случае онлайн использования ресурсом получится кластер, у которого могут непрерывно отваливаться различные элементы, что вряд ли позитивно скажется на надежности.

          Кстати в свое время проводился эксперимент внутри компании, когда дома ставили дополнительный рутер и вай-фай точку доступа для увеличения покрытия тогда еще Golden WiFi внутри жилых домов, используя в качестве аплинка проводной интернет Корбины (который теперь Билайн Интернет). Количество пользователей заметно не возросло, поэтому до реализации проект этот не дошел.
          Что-то мне подсказывает, что, несмотря на оригинальность самой идеи, затея с использованием пользовательских CPU/GPU экономически выгодной не будет. Найдется несколько сотен абонентов, кто на это согласится, но сопутствующая инфраструктура и прочее окажутся куда дороже, чем поставить еще один блейд в стойку в ЦОДе.
  • 0
    спонсор крыши — Билайн!
  • 0
    Читал высказывания некоторых товарищей, что такими статьями Билайн просто пиарится. Не слушайте никого, статьи очень интересные и полезные, пишите побольше!

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное