Pull to refresh
67
8.2

Пользователь

Send message
Методы построения DCI, пожалуй, тема для отдельного поста.

В этой публикации мы рассмотрели методы борьбы с петлями, испытанные нами на практике.
Построение Ethernet фабрик (мы используем FabricPath) — один из способов борьбы с петлями и один из приемлемых вариантов соединения ЦОД по L2 без угроз возникновения закольцованностей (проверено в боевых условиях).
VCS и Qfabric упомянуты как альтернативы FP, и мы не ставили цели перечислять все существующие технологии.
Это зависит от типа коммутатора и шторма. По нашему горькому опыту на Layer 3 коммутаторах CPU грузит процесс ARP input, т. е. на CPU летят ARP пакеты.
Именно на фоне всплеска трафика на L2 коммутаторах CPU может грузить и MAC-learning.
Действительно, от этой проблемы нет волшебной пилюли. Проблема комплексная и подход к её решению должен быть комплексным. Сложно полностью исключить возможность возникновения петель, но свести к минимуму этот риск и последствия широковещательных штормов очень даже реально.

В вашем примере с серверами при правильной настройке портов коммутатора можно смягчить последствия шторма, применив storm-control и ограничив количество обрабатываемых пакетов процессором с помощью инструмента CoPP.
Также можно настроить на порту Layer 2 ACL, разрешив трафик только с MAC-адреса этого сервера.
1. Да, вы правы, Qfabric не является протоколом, это проприетарная технология от Juniper.
В статье хотели показать, что Qfabric является вариантом TRILL в отношении формирования единой фабрики без угрозы возникновения петель коммутации внутри этой фабрики. Спасибо за уточнение, поправили этот момент в тексте и еще добавили VCS от Brocade.

2. Для того, чтобы избежать флуда на соседний ЦОД, необходимо разграничение на L3 (по маршрутизации), например, организовать связь между ЦОД через L3VPN. Для нас этот вариант не подходит, т.к. между ЦОД требуется растянутый L2 сегмент для работы vMotion.

Мы выбрали FabricPath, протокол достаточно надежен и прост в эксплуатации (легко настраивается, достаточно быстро можно добавлять новые VLAN). За 2 года эксплуатации ни разу не подвел.

При необходимости подключения в схему третьего ЦОД, можно будет рассмотреть возможность перехода на OTV + FabricPath.
Так broadcast или unknown unicast?


Да, здесь допущена неточность в формулировке. Широковещательный шторм как правило сопровождается ростом количества пакетов в сети (multicast, broadcast, unknown unicast). Поправили. Спасибо)
Конечно же, мы отделяем клиентский L2-сегмент от своей сетевой инфраструктуры VLAN’ми, но при шторме в клиентской сети шторм воздействовал и на CPU наших коммутаторов доступа. Это привело к «развалу» наших внутренних STP процессов и в конечном итоге вызвало шторм во всех остальных VLAN. Рекомендации, приведенные в конце статьи, помогут предотвратить подобные ситуации)
Лучшее тестирование – это отключение ввода и работа от батарей. Во время разряда снимаются все необходимые показания.
Мы используем и SDMO, и FG Wilson (на видео он кстати тоже есть — в контейнерном исполнении).
Температурный режим в помещении аккумуляторной, так же как и в других технологических помещениях, поддерживается в необходимых рамках и постоянно мониторится.
Мертвый АКБ в группе определяется автоматическими тестированиями, которые проводят сами ИБП, и дополнительными тестированиями, которые проводятся в рамках ТО.
Спасибо!
Это полностью самописная вещь — сами рисовали, сами кодили :)
Дело в том, что сама по себе деятельность по размещению серверов (в том числе, государственных организаций) в ЦОД не является лицензируемой деятельностью. Кроме того, в РФ не практикуется (и не требуется) государственная сертификация и аттестация серверных помещений или ЦОД.
Однако существуют требования к безопасности государственных информационных систем (ГИС) от ФСТЭК, согласно которым необходима аттестация самих ГИС, но не помещений.
У DataLine уже имеются клиенты из числа госорганизаций, разместившие в наших ЦОД свои аттестованные ГИС, и у компании есть все необходимое для того, чтобы эта аттестация была пройдена:
— система контроля и управления доступом (СКУД);
— система видеонаблюдения;
— контрольно-пропускной режим;
— возможность ограничить доступ к своим серверам, поставив свой СКУД на стойки или на ограждение нескольких стоек;
— штатные специалисты по информационной безопасности и по физической безопасности;
— лицензия ФСТЭК на техническую защиту конфиденциальной информации (ТЗКИ)
Последнее позволяет нам выполнять работы и оказывать услуги по защите любой информации, не содержащей сведения, составляющие государственную тайну.
Еще (забыл отметить в предыдущем ответе) такая большая полоса нужна для того, чтобы иметь возможность перекрыть одновременное падение 2-3 операторов.
Физическая скорость подключения к оператору – 10 гигабит. Закупаем у 7 операторов трафика по 10 Гбит/с, а у 8-го — 5 Гбит/с (так как больше нам пока не нужно от этого оператора).
Да, гигабитные порты – это не только неудобно, но и не подходит для определенных типов заказчиков. В наших ЦОДах, например, представлены контент-генераторы, которые предъявляют жесткие требования к полосе пропускания (некоторые сервисы требуют синхронизации чаще, чем 10-15 раз в сек.). Подобные частые всплески трафика не выдерживает гигабитный порт, а точнее, его буфер памяти, как следствие происходит потеря пакетов.

В системе мониторинга используется Nagios (в том числе множество самописных модулей на его основе). Статистику по сети и инженерной инфраструктуре собираем в Cacti. Визуальная часть мониторинга реализована на продукте Thruk. «Видеостена» (та, что на фото) также сделана собственными силами.
Почти вся информация, которая транслируется на мониторы ЦУПа, доступна в мобильном приложении — DataLine4All. Там все в реальном режиме)
Да, наша суммарная полоса действительно 75 Гбит/с. Этот запас необходим, так как у клиентов могут периодически возникать всплески нагрузки (например, при резервном копировании). Кроме того, когда на одного из клиентов осуществляется DDoS-атака, этот запас помогает обеспечить должное качество доступа в Интернет для остальных клиентов. А почему это число должно неприменимо делится на 10?)

Что касается фото — это издержки ремонта)). Сегодня эта часть ЦУПа выглядит несколько иначе (см. пост).

В аббревиатуры проскочил родной русский: АВР — автоматический ввод резерва =)
На английском соответственно будет ATS — automatic transfer switch.
Здесь все дело в законах физики: в основе такой системы кондиционирования принцип физического разделения горячих и холодных потоков. Холодный воздух тяжелее, поэтому он подается снизу, а нагреваясь, он поднимается вверх, где попадает в систему охлаждения.
На самом деле, оба варианта – и переход на резервный луч (с подстраховкой в виде ДГУ), и переход на ДГУ (оставляя резервный луч в качестве дополнительной подстраховки) – рабочие, здесь вы правы. И сразу перевести на резервный ввод тоже можно, даже при высокой нагрузке (поскольку резервный ввод – действительно резервный :) и рассчитан на ту же нагрузку, что и основной). Если говорить коротко, то мы для себя выбрали в качестве «штатного» варианта последовательность сначала ДГУ, потом резервный луч, — но и наоборот тоже можно.
Конечно, есть контроль. Сначала все эвакуируются, потом пускается газ. Никто не дышит газом, даже пару минут)
Тут дело даже не в вероятности.
Если оставить все на одном луче (без ДГУ), то нагрузка станет неоправданно высокой, и это при том, что наши ЦОДы заполнены более чем на 90%.
Наши специалисты по проектированию считают, что такая схема резервирования лучше. Все-таки уже 4й дата-центр по такой схеме построили и вполне успешно эксплуатируем :)

Information

Rating
586-th
Location
Москва и Московская обл., Россия
Works in
Registered
Activity