Comments / Profile of dataline / Habr

How to become an author

Пользователь

Profile Publications 112Comments 226Bookmarks 115

«Идеальный шторм» и как это лечится

dataline Mar 24 2015 at 11:11

Методы построения DCI, пожалуй, тема для отдельного поста.

В этой публикации мы рассмотрели методы борьбы с петлями, испытанные нами на практике.
Построение Ethernet фабрик (мы используем FabricPath) — один из способов борьбы с петлями и один из приемлемых вариантов соединения ЦОД по L2 без угроз возникновения закольцованностей (проверено в боевых условиях).
VCS и Qfabric упомянуты как альтернативы FP, и мы не ставили цели перечислять все существующие технологии.

0

«Идеальный шторм» и как это лечится

dataline Mar 23 2015 at 13:27

Это зависит от типа коммутатора и шторма. По нашему горькому опыту на Layer 3 коммутаторах CPU грузит процесс ARP input, т. е. на CPU летят ARP пакеты.
Именно на фоне всплеска трафика на L2 коммутаторах CPU может грузить и MAC-learning.

0

«Идеальный шторм» и как это лечится

dataline Mar 23 2015 at 10:39

Действительно, от этой проблемы нет волшебной пилюли. Проблема комплексная и подход к её решению должен быть комплексным. Сложно полностью исключить возможность возникновения петель, но свести к минимуму этот риск и последствия широковещательных штормов очень даже реально.

В вашем примере с серверами при правильной настройке портов коммутатора можно смягчить последствия шторма, применив storm-control и ограничив количество обрабатываемых пакетов процессором с помощью инструмента CoPP.
Также можно настроить на порту Layer 2 ACL, разрешив трафик только с MAC-адреса этого сервера.

0

«Идеальный шторм» и как это лечится

dataline Mar 22 2015 at 16:24

1. Да, вы правы, Qfabric не является протоколом, это проприетарная технология от Juniper.
В статье хотели показать, что Qfabric является вариантом TRILL в отношении формирования единой фабрики без угрозы возникновения петель коммутации внутри этой фабрики. Спасибо за уточнение, поправили этот момент в тексте и еще добавили VCS от Brocade.

2. Для того, чтобы избежать флуда на соседний ЦОД, необходимо разграничение на L3 (по маршрутизации), например, организовать связь между ЦОД через L3VPN. Для нас этот вариант не подходит, т.к. между ЦОД требуется растянутый L2 сегмент для работы vMotion.

Мы выбрали FabricPath, протокол достаточно надежен и прост в эксплуатации (легко настраивается, достаточно быстро можно добавлять новые VLAN). За 2 года эксплуатации ни разу не подвел.

При необходимости подключения в схему третьего ЦОД, можно будет рассмотреть возможность перехода на OTV + FabricPath.

0

«Идеальный шторм» и как это лечится

dataline Mar 20 2015 at 14:48

Так broadcast или unknown unicast?

Да, здесь допущена неточность в формулировке. Широковещательный шторм как правило сопровождается ростом количества пакетов в сети (multicast, broadcast, unknown unicast). Поправили. Спасибо)

0

«Идеальный шторм» и как это лечится

dataline Mar 20 2015 at 14:40

Конечно же, мы отделяем клиентский L2-сегмент от своей сетевой инфраструктуры VLAN’ми, но при шторме в клиентской сети шторм воздействовал и на CPU наших коммутаторов доступа. Это привело к «развалу» наших внутренних STP процессов и в конечном итоге вызвало шторм во всех остальных VLAN. Рекомендации, приведенные в конце статьи, помогут предотвратить подобные ситуации)

0

Внутри дата-центра OST на ул. Боровая

dataline Aug 26 2014 at 10:13

Лучшее тестирование – это отключение ввода и работа от батарей. Во время разряда снимаются все необходимые показания.

0

Внутри дата-центра OST на ул. Боровая

dataline Aug 25 2014 at 11:57

Мы используем и SDMO, и FG Wilson (на видео он кстати тоже есть — в контейнерном исполнении).
Температурный режим в помещении аккумуляторной, так же как и в других технологических помещениях, поддерживается в необходимых рамках и постоянно мониторится.
Мертвый АКБ в группе определяется автоматическими тестированиями, которые проводят сами ИБП, и дополнительными тестированиями, которые проводятся в рамках ТО.

0

Внутри дата-центра OST на ул. Боровая

dataline Aug 22 2014 at 18:11

Спасибо!
Это полностью самописная вещь — сами рисовали, сами кодили :)

0

Внутри дата-центра OST на ул. Боровая

dataline Aug 22 2014 at 15:36

Дело в том, что сама по себе деятельность по размещению серверов (в том числе, государственных организаций) в ЦОД не является лицензируемой деятельностью. Кроме того, в РФ не практикуется (и не требуется) государственная сертификация и аттестация серверных помещений или ЦОД.
Однако существуют требования к безопасности государственных информационных систем (ГИС) от ФСТЭК, согласно которым необходима аттестация самих ГИС, но не помещений.
У DataLine уже имеются клиенты из числа госорганизаций, разместившие в наших ЦОД свои аттестованные ГИС, и у компании есть все необходимое для того, чтобы эта аттестация была пройдена:
— система контроля и управления доступом (СКУД);
— система видеонаблюдения;
— контрольно-пропускной режим;
— возможность ограничить доступ к своим серверам, поставив свой СКУД на стойки или на ограждение нескольких стоек;
— штатные специалисты по информационной безопасности и по физической безопасности;
— лицензия ФСТЭК на техническую защиту конфиденциальной информации (ТЗКИ)
Последнее позволяет нам выполнять работы и оказывать услуги по защите любой информации, не содержащей сведения, составляющие государственную тайну.

0

Гуляем по дата-центру NORD

dataline Apr 23 2014 at 15:21

Стараемся!

+1

Дата-центр OST на ул. Боровая

dataline Feb 10 2014 at 15:08

Еще (забыл отметить в предыдущем ответе) такая большая полоса нужна для того, чтобы иметь возможность перекрыть одновременное падение 2-3 операторов.
Физическая скорость подключения к оператору – 10 гигабит. Закупаем у 7 операторов трафика по 10 Гбит/с, а у 8-го — 5 Гбит/с (так как больше нам пока не нужно от этого оператора).
Да, гигабитные порты – это не только неудобно, но и не подходит для определенных типов заказчиков. В наших ЦОДах, например, представлены контент-генераторы, которые предъявляют жесткие требования к полосе пропускания (некоторые сервисы требуют синхронизации чаще, чем 10-15 раз в сек.). Подобные частые всплески трафика не выдерживает гигабитный порт, а точнее, его буфер памяти, как следствие происходит потеря пакетов.

+1

Дата-центр OST на ул. Боровая

dataline Feb 6 2014 at 15:52

В системе мониторинга используется Nagios (в том числе множество самописных модулей на его основе). Статистику по сети и инженерной инфраструктуре собираем в Cacti. Визуальная часть мониторинга реализована на продукте Thruk. «Видеостена» (та, что на фото) также сделана собственными силами.

+1

Дата-центр OST на ул. Боровая

dataline Feb 5 2014 at 18:00

Почти вся информация, которая транслируется на мониторы ЦУПа, доступна в мобильном приложении — DataLine4All. Там все в реальном режиме)

0

Дата-центр OST на ул. Боровая

dataline Feb 4 2014 at 17:24

Да, наша суммарная полоса действительно 75 Гбит/с. Этот запас необходим, так как у клиентов могут периодически возникать всплески нагрузки (например, при резервном копировании). Кроме того, когда на одного из клиентов осуществляется DDoS-атака, этот запас помогает обеспечить должное качество доступа в Интернет для остальных клиентов. А почему это число должно неприменимо делится на 10?)

Что касается фото — это издержки ремонта)). Сегодня эта часть ЦУПа выглядит несколько иначе (см. пост).

+1

7 популярных ошибок при подключении оборудования

dataline Sep 17 2013 at 11:25

В аббревиатуры проскочил родной русский: АВР — автоматический ввод резерва =)
На английском соответственно будет ATS — automatic transfer switch.

+1

Дата-центр NORD на Коровинском шоссе

dataline Sep 16 2013 at 20:44

Здесь все дело в законах физики: в основе такой системы кондиционирования принцип физического разделения горячих и холодных потоков. Холодный воздух тяжелее, поэтому он подается снизу, а нагреваясь, он поднимается вверх, где попадает в систему охлаждения.

0

Дата-центр NORD на Коровинском шоссе

dataline Sep 12 2013 at 11:06

На самом деле, оба варианта – и переход на резервный луч (с подстраховкой в виде ДГУ), и переход на ДГУ (оставляя резервный луч в качестве дополнительной подстраховки) – рабочие, здесь вы правы. И сразу перевести на резервный ввод тоже можно, даже при высокой нагрузке (поскольку резервный ввод – действительно резервный :) и рассчитан на ту же нагрузку, что и основной). Если говорить коротко, то мы для себя выбрали в качестве «штатного» варианта последовательность сначала ДГУ, потом резервный луч, — но и наоборот тоже можно.

0

Дата-центр NORD на Коровинском шоссе

dataline Sep 12 2013 at 10:53

Конечно, есть контроль. Сначала все эвакуируются, потом пускается газ. Никто не дышит газом, даже пару минут)

0

Дата-центр NORD на Коровинском шоссе

dataline Sep 11 2013 at 15:40

Тут дело даже не в вероятности.
Если оставить все на одном луче (без ДГУ), то нагрузка станет неоправданно высокой, и это при том, что наши ЦОДы заполнены более чем на 90%.
Наши специалисты по проектированию считают, что такая схема резервирования лучше. Все-таки уже 4й дата-центр по такой схеме построили и вполне успешно эксплуатируем :)

0

1 2 ...

11