Comments 50
Хорошая технология, чтобы обманывать покупателей услуг виртуальных серверов, обещая им локальные nvme.
Сейчас эта технология позволяет получить производительность в ~4.7M IOPS @ 4K (randread) и средним latency в ~15 мкс на эмулируемом NVMe диске, подключенном к remote Storage таргету по NVMe over Fabrics (это на 100GbE картах).
Так что, при желании, провайдер может дать покупателю облачного сервера производительность в несколько раз выше локального NVMe диска :)
Получается теперь наличие локального nvme не показатель, надо Iops мерять периодически.
Статья огонь, где еще о таких волшебных железках узнаешь.
Производительность в основном зависит от того, какая СХД используется в качестве бэкенда для эмуляции. В статье говорится о Ceph, который применяется не для производительности, а скорее для минимизации стоимости решения и достижения максимальной емкости хранения.
Если нужна производительность — используете СХД с NVMe дисками и поддержкой NVMe over Fabrics.
Эта карта именно для быстрой сети и нужна, т.к. современные процессоры не способны прокачать сотни гигабит. Поэтому индустрия пошла по пути SmartNIC/DPU — в сеть торчит эта железка, а за ней находятся pcie диски. Почитайте про Fungible DPU. BlueField2 конечно довольно убог в этом плане, ибо очень медленный, но другие представители этого класса устройств с этим справляются на ура. Собственно, эту тему по-моему начал амазон со своими nitro.
Эта карта именно для быстрой сети и нужна, т.к. современные процессоры не способны прокачать сотни гигабит.
Тут есть противоречие. Если процессоры не способны, то зачем такую карту втыкать в сервер, где процессор не способен прокачать её скорость?
200Гбит — это всего лишь 20 GiB. Рейд из нескольких nvme.
Но на практике карта имеет всего 8 линий PCI-e, поэтому она никогда не сможет прокачать 200Гбит.
Но на практике карта имеет всего 8 линий PCI-e, поэтому она никогда не сможет прокачать 200Гбит.
bluefield с двумя 100гбит портами имеет 16 линий 4.0, а это даже больше 200гбит.
А смысл в том, что процессора в шасси никакого и не будет, а если и будет, то он будет не задействован в этих задачах.
Эта карта как раз обеспечивает доступ процессора к nvme хранилищу. В этом и суть статьи, что карта нужна для организации доступа виртуалок к «локальному» nvme.
Маленькое уточнение - эта карта - SMART NIC а не CONTROLLER. по железу это почти одно и тоже , разница лишь в тонкостях настройки PCIe шины. SMART NIC он "End Point" на шине, а CONTROLLER он "root complex". конкретно эта модель ввиде контроллера никогда не выпускалась так как является младшей в линейке. в линейке так же есть х16 борды с 100GbE /EDR портами и повышенной частотой ядер. на их базе и создавались контроллеры которые используются в JBOF.
кстати , в JBOF есть еще один немаловажный компонент - PCIe свич. ибо прямое подключение SSD к DPU не еффективно. все же SSD остается "узким местом" для пропускной способности (подразумевается что PCIe работает в gen4 режиме). а вот подключение к скажем 32ум дисками через свичи выглядит уже куда более интересным.
Да даже если не может, я все же больше о DPU в общем там вел речь. Сабж так то обрезок во многих планах — проц совсем медленный у нее по сравнению с конкурентами. Надо 3 версию ждать видимо.
ибо прямое подключение SSD к DPU не еффективно
Ну хз. Если у нас дофига дисков и свитч, это значит на полную все диски работать не смогут. В каких-то платформах это наверное не критично. Я вот смотрю fungible платформу — там свитча не видно, DPU напрямую к бэкплейну похоже подключены.
Понятное дело, что если мы строим JBOF, где важен объем для тех же QLC дисков, то там да. Можно свитчами обложиться и петабайты ворочить. Скорость тут второстепенна. Но если цель все таки получить сверх быстрое СХД, то как по мне должно быть прямое подключение.
сабж был залочен для Смарт Ников. тот же Fungible даже S1 будет не просто впихнуть даже в FHHL форм фактор (у них вобще есть PCIE девайсы? а то я на сайте не заметил.)
как их сравнивать по скорости? у них архитектура ядер разная. я не знаю например как сравнить 52 ядра 1.6Гц МИПС с 8 ядрами на 2.5Гц АРМ. подскажите?
каких конкурентов вы имеете ввиду?
если сравнивать сабж с fungible F1 по PCIe конечно последний жирнее и имеет собственные 64 линии (ген 3 правда). и конечно же ему не надо никаких свичей он сам себе свич. с другой стороны такой чип больше никуда не пойдет кроме тех самых систем о которых вы упомянали. т.е. гибкость в применении весьма скромная. BlueFiled-1 имел 32 линии. BlueField-3 ..... скоро узнаем :)
у них вобще есть PCIE девайсы? а то я на сайте не заметил
Еле откопал в их куче рекламы, таки есть pages.fungible.com/rs/038-PGB-059/images/PB0051.00.12020330-Fungible-Data-Centers.pdf
как их сравнивать по скорости?
Я чисто сужу по отзывам, что блюфилд совсем медленный. Собственно и подход у них какой-то не такой. Все остальные обмазывают свои DPU аппаратными ускорителями, внедряют ОС собственные, SPDK оптимизируют под них и прочее, а про блюфилд ничего толком. Ну и подход к железу разный, да. Что fungible, что какой-нить kalray — там прям видно, что это специализированный ускоритель под задачу, а не прилепленный ARM SoC к сетевухе.
каких конкурентов вы имеете ввиду?
Хотя бы fungible и kalray. По крайней мере по описанию и позиционированию, у них решения так сказать next-gen. Про остальных просто ничего не знаю, так то решений дофига, рынок быстро заполняется.
странный отзыв. ибо скорость таких девайсов сильно зависит от того, чем их загружать. сравнивали на одних и тех же аппликациях с теми же Песандро. DPU не единственная функция которую они могут выполнять. и кстати голый диск контроллер / диск виртуализатор очень скромен по ресурсным запросам. заускали DPDK на полную пропускную способность.
обмазывают свои DPU аппаратными ускорителями, внедряют ОС собственные
ну так и тут аккселераторами полна ж... простите горница людей. :) но с ними другая проблема. они место на силиконе хотят и электричество жрут в не зависимости от использования. а собственные ОС - клиенты такого не любят. проходили...
и кстати голый диск контроллер / диск виртуализатор очень скромен по ресурсным запросам
Да, но когда речь о миллионах IOPS, я чето начинают сомневаться в блюфилде. Особенно смотря на то, что творят его конкуренты.
клиенты такого не любят. проходили...
Ну это видимо до поры до времени, пока запросы маленькие. Все таки внедряют их явно не от хорошей жизни, а чтобы достичь нужных скоростей. Контрол плейн пожалуйста на линуксе, а датаплейн работает на том, что лучше подходит для задач. Думаю гиперскейлеры переживут, раз уж им не лень с FPGA даже возиться. А остальным, по большому счету, все эти DPU не особо и нужны.
Более того, она не может выдать (та карта с картинки) такие цифры даже в теории, поскольку имеет всего 8 линий pci-e. По моим расчётам именно эта карта может выдать не более миллиона иопс с учётом многочисленных накладных расходов.
В даташите никаких опсов указывать и нет смысла
Конечно, имеет. Потребитель должен знать насколько узким местом является эта карта. Если на практике она пропускает всего 1 миллион иопс, то ваша дутая цифра в 4.7М (которая относится к маркетинговым материалам WD, а не к этой NVidia-карте) — это маркетинговый bullshit.
это маркетинговый bullshit.
Ну точно читать не умеете. Во-первых. Где я сказал, что это решение на bluefield? Там стоит другой DPU. Во-вторых, ваши расчеты не стоят выеденного яйца, т.к. ни на чем не основаны.
Ну точно читать не умеете. Во-первых. Где я сказал, что это решение на bluefield?
Эта статья посвящена конкретной карте NVIDIA bluefield 2. Поэтому не нужно вводить читателей в заблуждение, подсовывая им цифры из маркетинговых материалов WD.
Во-вторых, ваши расчеты не стоят выеденного яйца, т.к. ни на чем не основаны.
Читай, изучай.
Из 100Гбит выжимают только 13-36Гбит, да и то при использовании размера кадра от 256КБ до 1МБ. Такой размер кадра уменьшает иопсы случайного доступа 4К в 32-256 раз. Поэтому реальные случайные иопсы, которые даст 1 такая карта будут в 100-200 раз ниже, чем даст локальный накопитель.
Как и получилось у авторов статьи. Хотя они подключили целый КЛАСТЕР, а не какой-то там жалкий 1 накопитель.
Эта статья посвящена конкретной карте NVIDIA bluefield 2. Поэтому не нужно вводить читателей в заблуждение, подсовывая им цифры из маркетинговых материалов WD.
Это нужно говорить человеку выше, который цифры дал, не мне. Он точно так же говорил о nvme-of решениях, а не конкретно bluefield.
Из 100Гбит выжимают только 13-36Гби
Ага, а 400гбит свитчи и сетевухи делают, потому что делать нечего. В вашей же статье все 100гбит они спокойно достигли твиком пары параметров, которые и так все знают. И все эти ваши разы опять не стоят ничего. Когда на практике все эти иопсы будут посланы в параллель с большой глубиной очередей, все эти скорости будут легко достигнуты.
И все эти ваши разы опять не стоят ничего.
Вот когда на практике это будет сделано, тогда и поговорим. А сейчас ты просто работаешь по маркетинговым материалам как попугай.
Нужно дождаться результатов сторонних тестирований.
И, о чудо!!! Мы имеем всего 15К иопс с целого кластера. Читай статью.
А мой 1 локальный NVMe — 750К.
Вот когда на практике это будет сделано, тогда и поговорим
Можете погуглить, примеров достаточно вплоть до десятков миллионов иопс. Не хотите — ваше дело верить, что это все маркетинг. Вы, будучи продаваном, лучше бы за трендами следили. А то так индустрия без вас на nvme-of перейдет, а вы все будете твердить, что оно не работает.
Можете погуглить, примеров достаточно вплоть до десятков миллионов иопс.
Что-то не нагуглил ни одного примера NVMe-OF с десятками миллионов иопс не связанного с производителями хранилищ NVMe.
Вообще, единственное что есть, это маркетинговый материал WD c 4М.
Технология эта нужна, чтобы осовременить стек и существенно увеличить скорость СХД. nvme это общий протокол доступа к блочным хранилищам. Как iscsi, один в один, который уходит на свалку истории. Сейчас nvme диски, которые pcie интерфейс имеют, очень сильно ограничены в скорости т.к. завязаны на медленные и малочисленные линии pcie. С nvme over fabrics с помощью вот таких DPU и SmartNic как в статье, диски будут подключены к какой-нить ethernet фабрике, где скорости куда выше нынче, чем в pcie.
Что до обмана, никто никого обманывать не будет. Пользователя вообще не волнует, как ему диски подключены. Провайдер дает ему главное — сколько иопсов он получит. Подключен диск локально или по фабрике значения тут не имеет. Благодаря фабрике как раз таки провайдер имеет куда больше возможностей предоставить много иопсов всем и сразу.
Сейчас по nvme будут подключать hdd.
Не сейчас, а в возможном будущем. В реальности таких HDD СЕЙЧАС не существует.
Сейчас nvme диски, которые pcie интерфейс имеют, очень сильно ограничены в скорости т.к. завязаны на медленные и малочисленные линии pcie.
Эта карта имеет всего 8 линий PCI-e, поэтому она не сможет даже в теории обеспечить линейную скорость большую, чем всего 1 хороший локальный NVMe c 8ю линиями.
А несколько локальных NVME в рейде точно её превзойдут. По линейным скоростям уж точно. Какое бы крутое не было удалённое хранилище.
Не сейчас, а в возможном будущем. В реальности таких HDD СЕЙЧАС не существует.
И какой смысл в этой придирке? У меня вообще слово «будут» написано. Их появление уже гарантировано. Сроки тоже есть примерные — сегейт собирался сэмплы к концу следующего года дать.
Эта карта имеет всего 8 линий PCI-e, поэтому она не сможет даже в теории обеспечить линейную скорость большую, чем всего 1 хороший локальный NVMe c 8ю линиями.
Основные формфакторы в датацентрах сейчас это U.2 и m.2, а это не более 4 линий. Поэтому версия этой карты на 16 линий спокойно потянет 4 таких накопителя. Если поставить несколько карт, то еще больше.
А несколько локальных NVME в рейде точно её превзойдут. По линейным скоростям уж точно. Какое бы крутое не было удалённое хранилище.
Весь смысл DPU в том, что он сможет всю это пропускную способность выдать по фабрике. Нет никакого смысла в этих ваших локальных дисках в рейде, если их нет в машине, где крутится код клиента. Смысл, чтобы взять эти диски из соседней стойки и не потерять в скорости. Для этого nvme over fabric и эти DPU и делают.
И как раз локальные nvme в рейде никого не превзойдут. nvme over fabric решение не имеет пределов по масштабированию — этих коробочек с дисками и DPU можно хоть тысячу наставить и подключить как одно nvme хранилище в виртуалку. Локальные диски будут оставлены далеко позади очень быстро.
Их появление уже гарантировано.
Пока вещь не появилась, то ничего не гарантированно.
Основные формфакторы в датацентрах сейчас это U.2 и m.2
m.2 — это основной формат в настольных компьютерах и ноутбуках. А в датацентрах российских основной формат — hh-hl, западных — u.2.
Поэтому версия этой карты на 16 линий спокойно потянет 4 таких накопителя.
Не потянет на полной скорости, так как есть ещё сетевые издержки и сетевые задержки. Сеть всегда медленнее локального доступа по PCI-E.
Пока вещь не появилась, то ничего не гарантированно.
Интерес гиперскейлеров это гарантирует. Люди отказываются от sata и sas.
m.2 — это основной формат в настольных компьютерах и ноутбуках. А в датацентрах российских основной формат — hh-hl, западных — u.2.
Опять чушь порите. Почитайте распределение формфакторов ssd в энтерпрайзе www.ngdsystems.com/page/Flash-storage-grows-up-with-new-EDSFF-SSDs-denser-3D-NAND Подавляющее большинство это сата, u.2 и m.2. hh-hl там на уровне погрешности, это мертвый продукт в свете перехода на новые формфакторы заместо u.2. Уж про m.2 так вообще смешно такие вещи читать. Вы похоже вообще с рынком не знакомы. Это один из основных форматов у гиперскейлеров.
Не потянет на полной скорости, так как есть ещё сетевые издержки и сетевые задержки. Сеть всегда медленнее локального доступа по PCI-E.
Сеть уже быстрее локальных pcie — нынче 400гбит порты внедряются. Только с приходом pcie 5.0 можно будет делать сетевухи хотя бы с одним таким портом — больше 16 линий не может. Отчасти поэтому nvme-of и внедряется. Так что пропускную способность сеть обеспечит полную, это не проблема вообще. Латентность — да, чуть больше будет, но тоже не особо проблема. Вы же знаете про RDMA, правда?
Интерес гиперскейлеров это гарантирует. Люди отказываются от sata и sas.
NVMe протокол на hdd никак их не ускорит. Не верь маркетологам.
HDD даже SATA III полностью утилизировать не могут.
А с рынком NVMe я точно знаком лучше тебя. Так как торгую ими. Об этом есть инфа в профиле.
Там вообще график трендов, а не реального использования по данным какого-то журнала. Даже без ссылки на сам журнал.
А я говорю не о трендах, а о реальности.
m.2 сильно проигрывает u.2, так как с ним нельзя делать горячую замену, рейды с hot-swap. Он маленький. Там не разместишь много памяти, мощный процессор и суперконденсаторы.
Я тоже говорю о реальности. Помимо этого графика можно было пойти и ознакомиться, что ставят гиперскейлеры в свои серверы. Если вам конечно интересно разобраться в теме чуть по-лучше. Ежели нет, можете продолжать дальше верить, что m.2 это настолки и ноутбуки
Ежели нет, можете продолжать дальше верить, что m.2 это настолки и ноутбуки
Вера тут нипричём. У меня было всего парочка клиентов из дешевых хостеров, которые брали m.2 для серверов с целью экономии.
А все остальные предпочитали hh-hl. И только после этого только U.2.
Но доля u.2 медленно повышается, так как на новых шасси они стали появляться.
NVMe протокол на hdd никак их не ускорит. Не верь маркетологам.
HDD даже SATA III полностью утилизировать не могут.
А кто сказал что-то об ускорении? Ускорение таки есть небольшое, но это не важно. Единственная причина перевода hdd на nvme это унификация стэка протоколов и интерфейсов. И толкают эту идею никакие не маркетологи, а инженеры, которые сейчас спеки пишут и контроллеры разрабатывают.
m.2 сильно проигрывает u.2, так как с ним нельзя делать горячую замену, рейды с hot-swap. Он маленький. Там не разместишь много памяти, мощный процессор и суперконденсаторы.
Невероятно, а я и не знал. Представляете, именно поэтому гиперскейлеры придумали новый формфактор, чтобы заменить все свои m.2 и решить перечисленные проблемы. А заодно еще u.2 получится на пенсию отправить, с ним тоже свои проблемы.
Латентность — да, чуть больше будет, но тоже не особо проблема. Вы же знаете про RDMA, правда?
проблема. низкие задержки — это причина, по которой ssd вытеснили hdd. и это единственный фактор, который продаёт оптаны.
и RDMA никак не может сделать задержку обращения к сетевому накопителю меньше, чем к локальному
Оптейн это понятно дело. Его этот фактор только продает, потому что он стоит как самолет. У него единственные юзкейсы и получаются, либо персистентная память, либо кэш записи быстрый. Собственно, оптейн по фабрике подключать вроде и не собирался никто, потому что его юзкейсы как раз чувствительны к задержкам.
А RDMA поможет эту задержку сократить относительно наивной реализации по сокетам. Локальной конечно не достигнет, физику никто не отменял.
Дополнительно видны разъемы Mini-USB,Странно, почему не micro-USB?
Разъемы и кабели надежнее :)
дело не в колличесте циклов коннект-дисконнект. дело в том, что найти трухольный коннектор микро или тайп-С оказалось не такой уж простой задачей. обратите внимание, что коннектор расположен на правой стороне карты - т.е. механически он ничем не защищен. это черевато вырыванием коннектора с кишками. так же стоит упомянуть, что этот интерфейс сугубо для апгрейта софта. т.е. для обычной работы платы он не должен быть подключенным.
ЗЫ: я думал за аудиоджек тапки полетят - а его по ходу никто не заметил. :)
В 21 году я бы сказал странно, что не type-C
А что если вынести журналы вашего "тестового и не самого быстрого кластера ceph" на NVRAM NVMe или PMEM/NVDIMMы ?
NVIDIA BlueField 2: Эмуляция NVMe