Методы построения DCI, пожалуй, тема для отдельного поста.
В этой публикации мы рассмотрели методы борьбы с петлями, испытанные нами на практике.
Построение Ethernet фабрик (мы используем FabricPath) — один из способов борьбы с петлями и один из приемлемых вариантов соединения ЦОД по L2 без угроз возникновения закольцованностей (проверено в боевых условиях).
VCS и Qfabric упомянуты как альтернативы FP, и мы не ставили цели перечислять все существующие технологии.
Это зависит от типа коммутатора и шторма. По нашему горькому опыту на Layer 3 коммутаторах CPU грузит процесс ARP input, т. е. на CPU летят ARP пакеты.
Именно на фоне всплеска трафика на L2 коммутаторах CPU может грузить и MAC-learning.
Действительно, от этой проблемы нет волшебной пилюли. Проблема комплексная и подход к её решению должен быть комплексным. Сложно полностью исключить возможность возникновения петель, но свести к минимуму этот риск и последствия широковещательных штормов очень даже реально.
В вашем примере с серверами при правильной настройке портов коммутатора можно смягчить последствия шторма, применив storm-control и ограничив количество обрабатываемых пакетов процессором с помощью инструмента CoPP.
Также можно настроить на порту Layer 2 ACL, разрешив трафик только с MAC-адреса этого сервера.
1. Да, вы правы, Qfabric не является протоколом, это проприетарная технология от Juniper.
В статье хотели показать, что Qfabric является вариантом TRILL в отношении формирования единой фабрики без угрозы возникновения петель коммутации внутри этой фабрики. Спасибо за уточнение, поправили этот момент в тексте и еще добавили VCS от Brocade.
2. Для того, чтобы избежать флуда на соседний ЦОД, необходимо разграничение на L3 (по маршрутизации), например, организовать связь между ЦОД через L3VPN. Для нас этот вариант не подходит, т.к. между ЦОД требуется растянутый L2 сегмент для работы vMotion.
Мы выбрали FabricPath, протокол достаточно надежен и прост в эксплуатации (легко настраивается, достаточно быстро можно добавлять новые VLAN). За 2 года эксплуатации ни разу не подвел.
При необходимости подключения в схему третьего ЦОД, можно будет рассмотреть возможность перехода на OTV + FabricPath.
Да, здесь допущена неточность в формулировке. Широковещательный шторм как правило сопровождается ростом количества пакетов в сети (multicast, broadcast, unknown unicast). Поправили. Спасибо)
Конечно же, мы отделяем клиентский L2-сегмент от своей сетевой инфраструктуры VLAN’ми, но при шторме в клиентской сети шторм воздействовал и на CPU наших коммутаторов доступа. Это привело к «развалу» наших внутренних STP процессов и в конечном итоге вызвало шторм во всех остальных VLAN. Рекомендации, приведенные в конце статьи, помогут предотвратить подобные ситуации)
Мы используем и SDMO, и FG Wilson (на видео он кстати тоже есть — в контейнерном исполнении).
Температурный режим в помещении аккумуляторной, так же как и в других технологических помещениях, поддерживается в необходимых рамках и постоянно мониторится.
Мертвый АКБ в группе определяется автоматическими тестированиями, которые проводят сами ИБП, и дополнительными тестированиями, которые проводятся в рамках ТО.
Дело в том, что сама по себе деятельность по размещению серверов (в том числе, государственных организаций) в ЦОД не является лицензируемой деятельностью. Кроме того, в РФ не практикуется (и не требуется) государственная сертификация и аттестация серверных помещений или ЦОД.
Однако существуют требования к безопасности государственных информационных систем (ГИС) от ФСТЭК, согласно которым необходима аттестация самих ГИС, но не помещений.
У DataLine уже имеются клиенты из числа госорганизаций, разместившие в наших ЦОД свои аттестованные ГИС, и у компании есть все необходимое для того, чтобы эта аттестация была пройдена:
— система контроля и управления доступом (СКУД);
— система видеонаблюдения;
— контрольно-пропускной режим;
— возможность ограничить доступ к своим серверам, поставив свой СКУД на стойки или на ограждение нескольких стоек;
— штатные специалисты по информационной безопасности и по физической безопасности;
— лицензия ФСТЭК на техническую защиту конфиденциальной информации (ТЗКИ)
Последнее позволяет нам выполнять работы и оказывать услуги по защите любой информации, не содержащей сведения, составляющие государственную тайну.
Еще (забыл отметить в предыдущем ответе) такая большая полоса нужна для того, чтобы иметь возможность перекрыть одновременное падение 2-3 операторов.
Физическая скорость подключения к оператору – 10 гигабит. Закупаем у 7 операторов трафика по 10 Гбит/с, а у 8-го — 5 Гбит/с (так как больше нам пока не нужно от этого оператора).
Да, гигабитные порты – это не только неудобно, но и не подходит для определенных типов заказчиков. В наших ЦОДах, например, представлены контент-генераторы, которые предъявляют жесткие требования к полосе пропускания (некоторые сервисы требуют синхронизации чаще, чем 10-15 раз в сек.). Подобные частые всплески трафика не выдерживает гигабитный порт, а точнее, его буфер памяти, как следствие происходит потеря пакетов.
В системе мониторинга используется Nagios (в том числе множество самописных модулей на его основе). Статистику по сети и инженерной инфраструктуре собираем в Cacti. Визуальная часть мониторинга реализована на продукте Thruk. «Видеостена» (та, что на фото) также сделана собственными силами.
Да, наша суммарная полоса действительно 75 Гбит/с. Этот запас необходим, так как у клиентов могут периодически возникать всплески нагрузки (например, при резервном копировании). Кроме того, когда на одного из клиентов осуществляется DDoS-атака, этот запас помогает обеспечить должное качество доступа в Интернет для остальных клиентов. А почему это число должно неприменимо делится на 10?)
Что касается фото — это издержки ремонта)). Сегодня эта часть ЦУПа выглядит несколько иначе (см. пост).
Здесь все дело в законах физики: в основе такой системы кондиционирования принцип физического разделения горячих и холодных потоков. Холодный воздух тяжелее, поэтому он подается снизу, а нагреваясь, он поднимается вверх, где попадает в систему охлаждения.
На самом деле, оба варианта – и переход на резервный луч (с подстраховкой в виде ДГУ), и переход на ДГУ (оставляя резервный луч в качестве дополнительной подстраховки) – рабочие, здесь вы правы. И сразу перевести на резервный ввод тоже можно, даже при высокой нагрузке (поскольку резервный ввод – действительно резервный :) и рассчитан на ту же нагрузку, что и основной). Если говорить коротко, то мы для себя выбрали в качестве «штатного» варианта последовательность сначала ДГУ, потом резервный луч, — но и наоборот тоже можно.
Тут дело даже не в вероятности.
Если оставить все на одном луче (без ДГУ), то нагрузка станет неоправданно высокой, и это при том, что наши ЦОДы заполнены более чем на 90%.
Наши специалисты по проектированию считают, что такая схема резервирования лучше. Все-таки уже 4й дата-центр по такой схеме построили и вполне успешно эксплуатируем :)
В этой публикации мы рассмотрели методы борьбы с петлями, испытанные нами на практике.
Построение Ethernet фабрик (мы используем FabricPath) — один из способов борьбы с петлями и один из приемлемых вариантов соединения ЦОД по L2 без угроз возникновения закольцованностей (проверено в боевых условиях).
VCS и Qfabric упомянуты как альтернативы FP, и мы не ставили цели перечислять все существующие технологии.
Именно на фоне всплеска трафика на L2 коммутаторах CPU может грузить и MAC-learning.
В вашем примере с серверами при правильной настройке портов коммутатора можно смягчить последствия шторма, применив storm-control и ограничив количество обрабатываемых пакетов процессором с помощью инструмента CoPP.
Также можно настроить на порту Layer 2 ACL, разрешив трафик только с MAC-адреса этого сервера.
В статье хотели показать, что Qfabric является вариантом TRILL в отношении формирования единой фабрики без угрозы возникновения петель коммутации внутри этой фабрики. Спасибо за уточнение, поправили этот момент в тексте и еще добавили VCS от Brocade.
2. Для того, чтобы избежать флуда на соседний ЦОД, необходимо разграничение на L3 (по маршрутизации), например, организовать связь между ЦОД через L3VPN. Для нас этот вариант не подходит, т.к. между ЦОД требуется растянутый L2 сегмент для работы vMotion.
Мы выбрали FabricPath, протокол достаточно надежен и прост в эксплуатации (легко настраивается, достаточно быстро можно добавлять новые VLAN). За 2 года эксплуатации ни разу не подвел.
При необходимости подключения в схему третьего ЦОД, можно будет рассмотреть возможность перехода на OTV + FabricPath.
Да, здесь допущена неточность в формулировке. Широковещательный шторм как правило сопровождается ростом количества пакетов в сети (multicast, broadcast, unknown unicast). Поправили. Спасибо)
Температурный режим в помещении аккумуляторной, так же как и в других технологических помещениях, поддерживается в необходимых рамках и постоянно мониторится.
Мертвый АКБ в группе определяется автоматическими тестированиями, которые проводят сами ИБП, и дополнительными тестированиями, которые проводятся в рамках ТО.
Это полностью самописная вещь — сами рисовали, сами кодили :)
Однако существуют требования к безопасности государственных информационных систем (ГИС) от ФСТЭК, согласно которым необходима аттестация самих ГИС, но не помещений.
У DataLine уже имеются клиенты из числа госорганизаций, разместившие в наших ЦОД свои аттестованные ГИС, и у компании есть все необходимое для того, чтобы эта аттестация была пройдена:
— система контроля и управления доступом (СКУД);
— система видеонаблюдения;
— контрольно-пропускной режим;
— возможность ограничить доступ к своим серверам, поставив свой СКУД на стойки или на ограждение нескольких стоек;
— штатные специалисты по информационной безопасности и по физической безопасности;
— лицензия ФСТЭК на техническую защиту конфиденциальной информации (ТЗКИ)
Последнее позволяет нам выполнять работы и оказывать услуги по защите любой информации, не содержащей сведения, составляющие государственную тайну.
Физическая скорость подключения к оператору – 10 гигабит. Закупаем у 7 операторов трафика по 10 Гбит/с, а у 8-го — 5 Гбит/с (так как больше нам пока не нужно от этого оператора).
Да, гигабитные порты – это не только неудобно, но и не подходит для определенных типов заказчиков. В наших ЦОДах, например, представлены контент-генераторы, которые предъявляют жесткие требования к полосе пропускания (некоторые сервисы требуют синхронизации чаще, чем 10-15 раз в сек.). Подобные частые всплески трафика не выдерживает гигабитный порт, а точнее, его буфер памяти, как следствие происходит потеря пакетов.
Что касается фото — это издержки ремонта)). Сегодня эта часть ЦУПа выглядит несколько иначе (см. пост).
На английском соответственно будет ATS — automatic transfer switch.
Если оставить все на одном луче (без ДГУ), то нагрузка станет неоправданно высокой, и это при том, что наши ЦОДы заполнены более чем на 90%.
Наши специалисты по проектированию считают, что такая схема резервирования лучше. Все-таки уже 4й дата-центр по такой схеме построили и вполне успешно эксплуатируем :)