Fujitsu ETERNUS CD10000: Ceph без забот

    Сегодня многие компании работают с огромным количеством данных. Нет, я сейчас не о паттернах BigData, а просто о том, что удивить десятком-другим терабайт данных на серверах отдельно взятой компании никого уже нельзя. Но многие идут дальше – сотни терабайт, петабайты, десятки петабайт… Конечно, хорошо, когда ваши данные и задачи по их обработке попадают под идеологию mapreduce, но намного чаще все эти данные представляют собой либо «просто файлы», либо тома виртуальных машин, либо уже структурированные и шардированные своим образом данные. В таких случаях компания приходит к идее необходимости развертывания системы хранения данных.



    Добавляет популярности СХД сегодня и системы, подобные OpenStack – ведь приятно управлять своими серверами не заботясь о том, что в одном сервере не работает диск, что одна из стоек обесточена. Не заботиться о том, что железо на одном Самом Важном Сервере устарело и для его апгрейда необходимо деградировать ваши сервисы до минимального уровня. Конечно, такие случаи могут быть ошибкой проектирования, но будем честны – все мы можем допустить такие ошибки.

    В итоге компания встаёт перед непростым выбором: создать СХД самостоятельно на основе открытого ПО (Ceph, MuseFS, hdfs – есть из чего выбрать с минимальными затратами на интеграцию, но придется потратить время на дизайн и развертывание) или купить готовую проприетарную СХД и потратить время и силы на её интеграцию (с риском того что СХД со временем достигнет лимита своей ёмкости или производительности).

    Но что если взять за основу Ceph, для которого сложно придумать невыполнимую задачу в области хранения данных, заручиться поддержкой какого-нибудь Ceph-вендора (например Inktank, которые его и создали), взять современные серверы с большим количеством SAS-дисков, написать web-интерфейс для управления, добавить дополнительные возможности для эффективного развертывания и мониторинга… Звучит заманчиво, но сложно для среднестатистической компании, тем более, если это не IT-компания.


    К счастью, обо всём этом уже позаботились в компании Fujitsu, в лице продукта ETERNUS CD10000 – первой enterprise-СХД, основанной на Inktank Ceph Enterprise, с которой мы вас сегодня и познакомим.



    Сам ETERNUS CD10000 представляет из себя конструктор из модулей. Модули – это x86-серверы с установленным Linux, Ceph Enterprise и собственными наработками Fujitsu. Такой дизайн СХД позволяет получить необходимый объём хранилища и постепенно расширять его в будущем. Модули бывают двух типов – модуль с данными и модуль с метаданными (а точнее – management node).

    Серверы-хранилища сейчас представлены тремя моделями:


    • Basic (12.6 ТБ в одном модуле, 1 SSD для кэша, 2U)
    • Perfomance (34.2 ТБ, 2 SSD для кэша, 4U)
    • Capacity (252.6 ТБ в одном модуле, 1 SSD для кэша, 6U)

    image

    Basic и Perfomance-ноды комплектуются 2,5-дюймовыми SAS-дисками, а в capacity-модули можно установить до 14 SAS-дисков и 60 SATA-дисков одновременно. Между собой хранилища общаются по infiniband – это касается операций репликации, восстановления утерянных копий блоков, обмена другой служебной информацией. В любой момент можно установить дополнительные серверы хранения, расширив тем самым общий дисковый объем хранилища – Ceph Enterprise перераспределит нагрузку на хранилища/диски. В общей сложности можно установить 224 сервера под данные. На сегодняшний день это около 56 петабайт, но объёмы дисков растут, возможности программной начинки в теории ограничены экзабайтом на одно облачное хранилище.

 Плюсом в этой ситуации становится то, что в ETERNUS можно будет добавлять серверы нового поколения совместно с серверами предыдущих поколений (и они смогут работать вместе). Устаревшие же ноды хранения со временем можно будет просто отключить «из розетки» – Ceph реплицирует недостающие данные на оставшиеся ноды без дополнительного вмешательства.

    Management-ноды занимаются хранением логов и событий, происходящих в хранилище. Рекомендуется поставить 2 таких сервера, но в целом система может работать и в том случае, если management-нода перестанет быть доступной.

    В CD10000 есть web-интерфейс, который позволяет проводить большинство операций с хранилищем и просматривать статус отдельных нод или хранилища в целом. Никуда не делся и классический CLI-интерфейс, знакомый многим администраторам, работавшим с Ceph напрямую. Проблем с «общением» у людей с этой системой возникнуть не должно.

    Теперь о том как ETERNUS может «поговорить» с другими серверами. Для начала о железе – каждый сервер хранения подключается в обычную сеть 10-гигабитными интерфейсами. Если быть уж совсем точным – то двухпортовыми карточками PRIMERGY 10Gb Modular LAN Adapter (с чипом Intel 82599 внутри них). Бутылочным горлышком они вряд ли станут.

    На программном уровне все фантазии пользователей подобных продуктов тоже учли. Есть 4 интерфейса для клиентов хранилища:


    • Librados (предназначен для прямого взаимодействия с хранилищем при помощи готовой библиотеки из приложений, написанных на C/C++/Java/Python/PHP/Ruby)
    • Ceph Object Gateway (RGW – здесь вас ожидает REST API, совместимое интерфейсом с Amazon S3 и Swift)
    • Ceph Block Device (RBD – интерфейс для хранения томов виртуальных машин QEMU/KVM)
    • CephFS (POSIX-совместимая сетевая файловая система, с драйверами для FUSE)
    • По отдельному требованию клиента в его инсталляции может появиться дополнительный интерфейс из ряда стандартных сценариев


    image

    Сердцем, мозгом и душой Fujitsu ETERNUS CD10000 стал Ceph Object Storage (или RADOS) – он занимается распределением нагрузки между нодами/дисками, репликацией блоков, восстановлением утерянных реплик, перекластеризацией хранилища. В общем всем что касается производительности и надежности. Здесь не используются RAID-массивы в обычном их сценарии применения. Сложно представить, сколько займет ребилд одного массива на десятки дисков по 6 ТБ. И как часто он будет происходить.

    А если дисков несколько тысяч? RADOS же решает проблему выхода дисков из строя быстрее – ему не требуется перечитывать поверхность всех блоков массива (в том числе и пустых, если сравнивать с тем же mdadm). Ему требуется только сделать дополнительные копии тех блоков, которые хранились на диске, удаленном из хранилища. Аналогично решаются и проблемы отключенных нод-хранилищ – RADOS сможет найти те блоки, количество реплик которых не соответствуют настройкам хранилища. Само собой, реплики одного блока никогда не будут храниться на одной ноде. Для каждого набора данных на программном уровне определяется размер блока, количество копий (реплик) каждого блока, и на каком типе носителей эти реплики следует создавать (медленные, быстрые или очень быстрые носители). Для наборов данных, где основное требование лежит в области экономики, а не скорости доступа, можно создать уровень хранения, напоминающий RAID 6. Хранить несколько копий данных может оказаться слишком накладным даже в многопетабайтной системе.



    Внутри RADOS используется алгоритм CRUSH (Controlled Replication Under Scalable Hashing) – строится иерархическое дерево из оборудования разного уровня (стойка, сервер, диски), в котором содержится информация о доступных объёмах, расположении и доступности дисков. Исходя из этого дерева RADOS уже решает, где можно хранить копии блоков в необходимом количестве. Кстати, системный администратор может редактировать это дерево вручную. 

Этот же алгоритм обеспечивает и отсутствие необходимости в едином хранилище информации о том где искать блок – любой «железный» участник RADOS способен ответить на запрос о любом блоке данных, что избавляет нас от ещё одной точки отказа СХД.

    В качестве приятной особенности можно отметить возможность работы Fujitsu ETERNUS CD10000 в нескольких датацентрах. Правда, скорость света не обманешь – не стоит размещать крылья кластера дальше, чем в 80 километрах по длине оптики друг от друга (что впрочем позволяет разместить кластер в двух разных городах Подмосковья, например), иначе из-за высокого RTT хранилище может работать некорректно. В таком случае СХД будет работать в режиме split-site конфигурации, но всё же она будет оставаться одной СХД с одним и тем же набором данных внутри.

    Таким образом мы имеем СХД, которая легко интегрируется в любую инфраструктуру, отказоустойчива и надёжна в достаточной степени, основана на качественном оборудовании Fujitsu, легко масштабируется под разные объёмы данных и разные требования к производительности, избавлена от узких мест в производительности, при этом имеет статус enterprise-продукта и техническую поддержку от мировой компании с богатым опытом.




    » Страница продукта на сайте Fujitsu

    Спасибо за внимание, готовы ответить на ваши вопросы.
    Fujitsu 60,32
    Японская компания-лидер ICT-рынка
    Поделиться публикацией
    Комментарии 30
    • +9
      Сколько стоит?
      • +9
        Похоже, что менеджер сабподрядчика сертифицированного интегратора свяжется с вами по факсу.
        • +1
          Shut up and take my money!
          PS: Очень долго этого ждал, сам использую ceph в production.
          PPS: ждем пока выдернут вэб интерфейс управления.
          • –4
            Цена сильно зависит от конфигурации системы, емкости и предоставляемого уровня sla. Поэтому выдается в конкретные проекты по окончании сайзинга.
            • +9
              Понимаю, что enterprise рынок, но вы задолбали, ей богу. Если есть статья на хабре, то дайте хотя бы ориентировочные ценники, покажите несколько конфигураций и их стоимости, забейте на SLA и напишите, что это без учета SLA. Я сам — enterprise, но все чаще отдаюсь тем, кто дает цены на паблик, а не устраивает чехарду с кучей действующих лиц и навязанными услугами. Этому рынку пора меняться.
              • 0
                +1 к предыдущему оратору!
                Хотелось бы оказаться поближе к идеальному миру, когда для того, чтобы понять порядок цен и варианты конфигурации не надо проводить предварительные консультации с поставщиками оборудования такого класса, потом тендер среди поставщиков с детальным ТЗ среди разных производителей, а после этого детализирующий среди поставщиков оборудования уже одного производителя, после которого в последнюю секунду всплывает какой-нибудь SHIT типа «обучения не было включено в этом предложении».

                Это именно та причина, почему в последнем нашем тендере на СХД вдруг оказались решения с прогнозируемой ценой и калькуляторами на сайтах — типа Synology/Maxtronic/Etegro.

                P.S. Большие вендоры последние годы напрягают — как своей политикой (так и привязкой к брендированным компонентам).
                • –1
                  Если есть понимание по своим задачам, которые будут использовать СХД. А так же известен профиль ввода/вывода (соотношение чтения/записи, количество IOPS/Поток в Mb/s и т.д.) и есть понимание как посчитать «свою» конфигурацию СХД. А еще вы готовы взять на себя риски перед руководством, в случае если промажете и работать все будет не так хорошо как планировалось. То да, нафиг все эти партнеры и интеграторы. И можно действовать по плану: «Хочу мороженку наполовину шоколадную, наполовину клубничную, в глазури и чтобы при +20 по цельсию не таяла в течении 15 минут.» сколько будет стоить?

                  Но далеко не все заказчики такие продвинутые. Поэтому на рынке и существуют компании интеграторы. Да и определение «типовая конфигурация» для СХД не совсем понятно, что должно означать. А если нет типовой конфигурации, то как сделать паблик прайс? Покомпонентно перечислять?
                  Типа:
                  Двигатель внутреннего сгорания — 1000$;
                  Дверь передняя правая 500$;
                  Руль — 100$;
                  и т.д.
                  :)?
                  А потом заказчик вендора будет спрашивать, а почему я не могу купить у вас машину без руля? Или без заднего моста?
                  А еще лучше:
                  — Я купил у вас машину, но она не едет.
                  — Но вы же не захотели покупать двигатель!
                  — Ну и что? У вас просто дерьмовые машины. Никогда больше к вам не приду.

                  Я утрирую конечно. Но на мой взгляд это часть мотивов, которыми в данном случае руководствуются «большие» вендора. Ну и $$ в глазах и в мозгах ими тоже движут :).

                • 0
                  Под SLA имелся в виду не только уровень сервиса, но и количество реплик тех или иных данных и требование по производительности — на каких нодах и каких типах дисков собираемся хранить, какое количество копий данных и через какие механизмы будем получать доступ. Кроме того, Часть SSD-дисков можно использовать для увеличения скорости доступа в качестве Tier0.
                  А на определенном количестве нод дублирование infiniband еще становится обязательным, что тоже не бесплатно.
                  Поэтому цена для заказчика появится только по результатам сайзинга.
                  Все остальное будет оценкой тангенциального ускорения сферического коня в вакууме.
                  • +1
                    Серверы-хранилища сейчас представлены тремя моделями:


                    • Basic (12.6 ТБ в одном модуле, 1 SSD для кэша, 2U)
                    • Perfomance (34.2 ТБ, 2 SSD для кэша, 4U)
                    • Capacity (252.6 ТБ в одном модуле, 1 SSD для кэша, 6U)


                    А можно без демагогии, просто стоимость вышеперечисленных моделей в базовой комплектации? Без стоимости дополнительных сервисов, доставки, откатов и маржи интеграторов. Просто стоимость отгрузки железяки с софтом с завода самовывозом, с дефолтными настройками и паролями.
                • 0
                  Да давайте минималку к примеру. 4 Basic и 1 Management нода. С минимальным SLA.
                  Я так понимаю, у вас ceph mon и osd сервисы на одной ноде?

                  Хочется понять принципиальное отличие стоимости 4 серверов + красноглазого админа от вашего решения.
                  • +2
                    Ого! Да тут не факсом, тут целым разговором лично в бане дело пахнет. Сколько откатываете?
                  • –2
                    А как вы вообще представляете себе «цену на продукт», состояший из десятков различных компонент, где только дисков может быть от пары десятков до тысяч? Назовите вашу конфигурацию — будет вам цена.
                    Это ж не пачка масла.
                    • +5
                      Дык, дайте примеры конфигураций с их ценниками, все равно это отличная ориентация.
                      • +2
                        На картинке в стаье отлично расписаны объемы в каждой редакции и диски. Какие вам надо конфигурации называть? Три редакции — три ценника. Не надо тут туман наводить. SLA может варьироваться — да, но как уже написали выше можно и без него написать было цену.
                        • 0
                          Это не три редакции, это три разнык конфига возможных модулей, составляющих кластер, они могут быть в разном сочетании и в разном количестве в готовой системе. И это не считая того, что программные фичи, я полагаю, также могут быть в разном количестве и в разном наборе включены.
                          • 0
                            И это не считая того, что программные фичи, я полагаю, также могут быть в разном количестве и в разном наборе включены.


                            А за включение фич, которые и так в коде есть надо тоже платить? O_o
                            • 0
                              Это не free ceph. Это ceph enterprise, коммерческий продукт за деньги. Плюс собственные разработки Fujitsu. Что значит «и так есть в коде»?
                              • +1
                                Это и значит. Программные фичи уже написаны. Или тут тоже Home Edition, Professional Edition, Enterprise Edition и прочий стыд?
                            • 0
                              Удивительно, как же автопроизводитель может сразу назвать цену за машину с определенным мною набором опций, а тут Фуджитсу ломается как девочка на первом свидании, и увиливает от ответа.
                              Минимальная цена хотя бы будет?
                      • +4
                        > Здесь не используются RAID-массивы в обычном их сценарии применения. Сложно представить, сколько займет ребилд одного массива на десятки дисков по 6 ТБ. И как часто он будет происходить.

                        Почти никто не делает очень длинные RAID-группы, в особенности на таких больших дисках, по крайней мере никто из производителей систем хранения это не рекомендует своим пользователям. Ребил ведь вовлекает в перестроение не вообще все диски системы, а работает только в пределах одной группы их. Ну, есть у вас тысяча дисков, разделенных на 100 групп по 10 дисков в каждой, допустим. Вот только эти 10 и будут нагружены ребилдом, при отказе диска.

                        Так что это неактуальные пугалки в реальной жизни.

                        > А если дисков несколько тысяч?

                        … и уж тем более никто не объединяет в одну группу несколько тысяч дисков ;).
                        • 0
                          Тут скорее речь о том, что из этих 100 групп по 10 дисков пара групп всегда будет находиться в ребилде из-за замены дисков. И, соответственно, 20 дисков будут прогружены бесполезной в общем-то работой.

                          А если дисков несколько тысяч — то умножьте.

                          • 0
                            по крайней мере никто из производителей систем хранения это не рекомендует своим пользователям

                            Даже Netapp для DDP?
                            • 0
                              Если память не изменяет, то у нетапа максимальный размер дисковой группы внутри пула равно 28 шт, при этом рекомендованный размер не более то ли 14-ти, то ли 16-ти. Соответственно DDP составляется из нескольких таких дисковых групп, защищенных старым добрым Raid.
                              • 0
                                Это точно не про RAID-DP?
                                • 0
                                  Угу, посмотрел, видимо путаю с их «старыми» агрегатами. А DDP вообще по логике получается «собственная реализация» Raid60 в конфигурации 8+2. D-Piece по 512 мб собранные в D-Stripe в конфигурации 8Data+2Parity итоговым размером 4 ГБ. В итоге луны, отдаваемые хостам, размазываются по этим D-Stripe. Чем-то напоминает идеологию HP 3PAR.
                          • +1
                            Infiniband и 2 10Гб порта на каждом сервере совсем не соседствует с понятием «бюджетно». А раз небюджетно, то воспользоваться проприетарным СХД с вменяемой документацией, широким спектром софта и поддержкой гораздо логичнее.
                            Пулы есть уже вообще у всех, 3PAR вообще отказался от идеологии RAID групп. Многие вендоры предоставляют возможность виртуализации. Зачем покупать весьма недешевые железки чтобы потом еще что-то допиливать самому лично мне непонятно.

                            А вот про постоянный ребилд поспорю. Например древняя EMC CX4 с которой довелось работать постоянно сама тестирует диски и если считает что диск скоро выйдет из строя начинает копировать на него данные на хот-спару ДО его выхода из строя. В результате количество ребилдов резко сокращается. За 2 года на 2 массивах по 400 дисков реальный ребилд возник 1 раз, когда отказал диск во время эквалайзинга (копирования данных с хот-спары на свежеустановленный диск).
                            • 0
                              В кластере с Ceph также можно предусмотреть failure prediction, с этим нет никаких проблем. 10G порты не переведут железо по стоимости в класс выше (стоимость дисков одной storage-ноды в разы выше стоимости карточки, встроенной или нет, не говоря об остальном). Акценты расставлены, скорее, не в том порядке — сначала идут открытость платформы и дешевизна масштабирования, обе этих сущности практически закрыты для проприетарных коробков. Есть некоторые нюансы насчет географического разнесения, которые пока что за намного большие деньги решены в проприетарных боксах, ну и пожалуй все.

                              Да, liberados — это кубинский форк, стало быть?
                            • 0
                              Это правда, что данная СХД умеет отдавать только по протоколу Ceph, не по стандартным интерфейсам FC, iSCSI? В смысле, что клиенты обязаны ставить себе клиентскую библиотеку Ceph?
                              • 0
                                можно rbd завернуть в iscsi, я таким образом в xen раньше диски отдавал.
                                • 0
                                  ETERNUS CD10000 может отдавать по S3 и iSCSI, скоро добавится NFS.

                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                Самое читаемое