Pull to refresh
71.64

Три ЦОДа без швов, или как ВТБ защищает бизнес-системы

Reading time 4 min
Views 6.4K
Розничный бизнес ВТБ обслуживается более 150 системами, и все нужно надежно защищать. Некоторые системы критичны, некоторые плотно привязаны друг к другу — в общем, задача масштабная. В этом посте вы узнаете, как она была решена. Чтобы даже при падении метеорита на один из ЦОД работа банка не прерывалась, и данные остались в сохранности.



Разработка проекта


Изначально планировали реализовать катастрофоустойчивое решение из двух одинаковых ЦОД, основного и резервного, с «ручным» переключением на резервную площадку. Но при такой схеме резервная площадка простаивала бы без дела, хотя требовала бы такого же обслуживания, как и основная. В результате решили применить схему active-active, при которой оба ЦОД (разнесенные на 40 км) работают в штатном режиме и обслуживают бизнес-системы одновременно. В результате общая емкость и производительность удваивается, что особенно актуально при пиковых нагрузках (нет нужды в масштабировании). И обслуживание можно проводить без ущерба для бизнес-процессов.



Создание катастрофоустойчивой системы ЦОД разделили на две этапа. На первом зарезервировали порядка 50 важных бизнес-систем, для которых RPO должно быть близко к нулю — включая АБС, систему противодействия мошенничеству, процессинг, CRM и систему дистанционного банкинга, обеспечивающую онлайн-подключения как физических, так и юридических лиц. Такое разнообразие систем стало главной сложностью при разработке эскизных решений для инфраструктуры резервирования.

В первом приближении всё было построено на типовых решениях. Но когда эскиз начали применять к реальным бизнес-системам, выяснилось, что предстоит большая работа напильником: множество компонентов просто не могли быть описаны типовыми решениями. В таких случаях приходилось искать индивидуальные подходы, например, для самой большой бизнес-системы —АБС «Главная книга». Также пришлось перерабатывать типовое решение для Oracle, поскольку оно не соответствовало требованию полного отсутствия потери данных. То же самое произошло и с базами данных Microsoft SQL, и с рядом других систем. В числе критичных были и внутренние информационные шины, через которые обмениваются данными остальные системы. В частности УСБС-front и УСБС-back.


Схема резервирования ИС УСБС-front


Схема резервирования ИС УСБС-back


Схема резервирования MS SQL Server

Помимо двух основных ЦОД, работающих в режиме active-active, был создан и третий ЦОД, в котором собраны устройства, выполняющие роль координаторов. Это сделано для того, чтобы в случае разрыва связи между двумя основными площадками не возникла ситуация split-brain. Сеть из двух основных ЦОД плоская, без маршрутизации, построена на оборудовании Cisco, использует туннель L2 в L3 через OTV, а сами площадки соединены сетью MPLS по оптоволокну (идущему двумя разными путями). Для сети передачи данных используется канал 160 Гбит/с, а для сети хранения данных — 256 Гбит/с. В сети хранения данных обе площадки связаны по оптике.


Схема сети передачи данных

Инфраструктура



Для реализации проекта мы приобрели только 40 % оборудования, остальные 60 % —уже были в наличии.

На обеих площадках СХД объединены, а для универсального доступа извне к серверу приложений сделан кластер балансировщиков F5 BIG-IP. Для виртуальных машин был построен растянутый кластер VMware, использованы виртуализаторы EMC VPLEX и дисковые массивы EMC Vmax и Hitachi VSP, подключенные на площадках в кластер виртуализаторов. Файловый сервис растянут между двумя дата-центрами и построен на технологиях Hitachi: для синхронизации данных между площадками используется Hitachi GAD, а для предоставления файлового сервиса — кластеризованные устройства HNAS, расположенные в обоих дата-центрах.


Схема взаимодействия дисковых массивов VMware и VPLEX

Для баз данных мы используем репликацию встроенными средствами: Oracle Data Guard для Oracle и Always On для серверов Microsoft SQL. Чтобы избежать потери данных, Always On работает в синхронном режиме, а у Oracle идет одновременная запись redo на другую площадку, это позволит восстановиться по состоянию на последний момент. Методика проработана, отлажена и документирована.

Для баз данных многих систем используются серверы IBM Power, 1700 blade-серверов x86 Hewlett Packard разных поколений, в основном двухпроцессорных. Сеть построена на оборудовании Cisco Nexus 7000, SAN — на Brocade DCX разных поколений. Также по площадкам распределены инженерные системы Oracle: Exadata, SuperCluster, Exalogic.


Схема файлового сервиса

Полезная емкость зарезервированных систем в каждом из двух основных ЦОД составляет примерно по 2 петабайта. Средствами оборудования зарезервированы только хранилище, системы виртуальных машин и файловые сервисы. Все остальные базы и прикладные системы резервируются средствами ПО. Синхронизация между массивами производится в файловом сервисе по технологии Hitachi GAD. Во всех остальных случаях данные реплицируются средствами самих баз данных или приложений.


Схема СРК

Тестирование


После завершения первого этапа — резервирования порядка 50 самых критичных бизнес-систем — мы с коллегами из «Инфосистемы Джет» проверили работу всех элементов: сети, дисковых массивов, виртуализации СХД и прочего. Протестировали работу каждой бизнес-системы при одновременном использовании ЦОД и при переключении между ними: ставили систему в катастрофоустойчивую среду, затем полностью переключались на другой ЦОД, проверяли работу системы там и возвращали обратно в нормальную продакшн-среду. Во время всех тестов измерялась производительность и оценивалась динамика. При любых схемах работы и переключений производительность не снизилась, доступность не пострадала. В итоге мы обеспечили бесшовное соединение между дата-центрами на уровне физических серверов (кластерная конфигурация), виртуальной инфраструктуры (распределенный кластер), систем хранения данных (зеркалирование) и сети передачи данных (резервирование ядра сети).

Впереди новый этап — перевод на катастрофоустойчивую модель остальных  бизнес-систем банка. Проект реализуется компанией «Инфосистемы Джет».
Tags:
Hubs:
+2
Comments 1
Comments Comments 1

Articles

Information

Website
www.vtb.ru
Registered
Founded
Employees
over 10,000 employees
Location
Россия