Констинтетность — нет подтверждения записи (в гостевую ОС) (softupdates) пока не прошло на других нодах запись копий. Поэтому на запись 40.000 IOPS на блок, а на чтение — 100.000+
Данные ездят вслед за виртуалкой (мы все автоматом сами делаем) — при переезде VM на другой нод, данные локализуются там максимально быстро.
Есть кластера на десятки тысяч виртуалок.
Про сеть — мир меняется :)
Наш глобальный партнер, Arista Networks (подавляющее большинство наших инсталляций — на аристах) — коммутаторы 320-350нс имеют (скорость коммутации / маршрутизации, L2-L4), при смешной цене (24 wire rate порта — GPL прайс аля 12$k).
налицо непонимание нашей архитектуры, но это нормально — многим мозг взрывает :)
лучше — потому что каждый нод физический имеет _локальный_ контроллер и _локальный_ I/O (с сохраниением копий данных на соседние ноды).
на ESXi / HyperV мы монтируемся локально (сам с себя нод монтирует), скорость — ограничние работы процессора / памяти / PCI шины.
ESXi монтирует NFS3 датастор с виртуалки запущенной на нем самом, через логический коммутатор без физических интерфейсов. HyperV тоже самое, но по SMB3 (который мы написали). KVM — iSCSI (бинго!).
100 нодов — 100 NFS / SMB3 / iSCSI «потоков». 1000 нодов — 1000 потоков («путей»). Мы превращаем старые надежные протоколы в суперпроизводительные просто за счет логики.
Адреса везде одинаковые — 192.168.5.2 (на каждом виртуальном контроллере поднят). Поэтому для гипервизора мы shared.
Далее. Если этот top-5 телеком рассматривает решения — то мы можем продать только ПО.
Экономика там меняется колоссально, но смысл имеется только от сотен нодов.
Ну, с мировыми топами у нас тоже более чем хорошо. Например один из самых больших bigdata кластеров (мы умеем подменять HDFS нашим NDFS для базового map/reduce с ускорением в 2-3 раза как минимум, зачастую — в 10 раз).
На питании — вы попадаете очень сильно в случае если гипервизоры типа ESXi / HyperV (сиречь — отдельные сервера от ceph кластера с реекспортами iSCSI и прочей мишурой).
В случае телекома огромного который строит свой Amazon — ceph может быть вполне разумен, спорить с этим глупо (я сам строил мега-кластера на опенсорсе, и не в РФ).
Любой мультипас (нам он кстати не нужен) — дополнительные проблемы, все равно упор в конкретные ноды (даже если пачку мультипасов делать, хотя обычно более 2-х — никто не рекомендует) и «подвисания» I/O на время отработки failover.
Далее, на HyperV некоторый (и очень интересный клиентам) функционал вообще чисто на SMB3 только работает.
Про энетрпрайз полки (и сервера) — мы точно так-же дешевле выходим в разы зачастую.
У нас стойка выдаст 2 миллиона IOPS на ура. При этом будут терабайты RAM и сотни процессорных ядер для работы приложений. На ceph-же будет только хранение.
Не надо теплое и мягкое плз ;)
Если нужна чисто хранилка без compute — ceph очень хорош, никто не спорит.
Для телеком облака — мы зачастую очень хорошо подходим. Чисто если все подсчитать корректно (особенно — стойко-места и электричество не забыть). Инженеры обходятся дешевле — пока не легло все капитально.
В РФ я ни одного «серьезного телекома» не знаю без серьезнейших пролежек (кроме N1 разве что).
Говоря откровенно — крупнейший (top-1 :D ) телеком в РФ сейчас с нами активно сотрудничает и особо не скрывают этого. Как минимум очень серьезно рассматривают нас как вариант (один из основных).
Про ceph и gluster никто даже не вспоминает — не тот уровень надежности.
Создавать пачки iSCSI реэкспортов для каждого гипервизора — не выйдет.
iSCSI экспорт должен быть shared, так что ВСЕ ноды кластера (гипервизоры) будут завязаны на производительность и надежность конкретных нодов Ceph кластера. Да еще и ввод-вывод уже будет упираться в сетевые интерфейсы (вместо локализации). Это называется — от чего убегали, к тому и приходим обратно.
Это — мало кому нужный ахтунг. Netapp сильно лучше сделает это, право :).
Про маленькие кластеры и клиенты мы не говорим — откровенно, если нет 100$k минимального бюджета на проект — на нас лучше не смотреть.
В случае с внешней СХД — никто не будет брать Ceph для серьезных задач, возьмут Netapp / EMC / Hitachi / прочие и будут правы.
Возможно, лет через 5-10 все и изменится…
Еще раз — просьба понять, что для бизнеса — потратить несколько сотен тысяч / миллионов долларов на коммерческую технологию — не проблема, но иметь малейшие ненужные риски «наколенных» и зависеть от инженеров своих (которые требуются весьма квалифицированные) — никто не будет.
Ровно так-же как сравнивать parrot drone за 300$ и квадрокоптеры профессиональные для МЧС за 70.000$k.
Похожие технологии, разные рынки и клиенты, разные надежности и возможности.
Угу. Вот и я говорю, ceph + гипервизоры (кроме KVM / Openstack) — это для любителей большого топора и ножовки.
Нативно ни на один коммерческий (читай — самый распространенный в энтерпрайзе / правительстве / военных) — смонтировать не получится.
Куча бубнов с плясками и наслоениями протоколов. При том что iSCSI реэкспорт будет упираться все равно в производительность конкретных нодов через которые он смонтирован (никаких сотен тысяч / миллионов IOPS и близко не будет).
Стандартная типовая нагрузка кластера (читай — чуть свободных мощностей есть). Если их нет — это ошибка дизайна инфраструктуры.
…
Чего уж там, раскидать 1TB данных по кластеру где десятки / сотни дисков в режиме «торрента» (экстент группы по нодам всем размазать) — проблемы большой нет.
Очевидно, что если жесткий прессинг на I/O идет (SATA уровень) — то может быть дольше, чудес тут никто не обещает.
Я абсолютно «за» наколенные поделки. Если есть деньги держать штат разработчиков / инженеров и это профильный бизнес компании.
Я абсолютно «против» наколенных вещей для непрофильных (читай — не онлайн) бизнесов.
Про «романтику» — у нас данные восстановить можно из любой проблемы практически, ввиду того что базовый уровень — ext4 (надежный как танк) и 3-5 копий метаданных.
За всю историю компании — ни одной потери данных (иначе EMC / Netapp уже бегали бы с большим красным флагом).
Я не говорю что никогда не случится, но мы по дизайну реально в первую очередь на надежность (при крайне высокой производительности) закладывались.
Констистенси мы поддерживаем, причем уже есть App. Consistency тоже (пока в бете).
Сертификации многие нам vmware мееедленно, причины можно только догадываться.
Ровно те-же по которым нас резко попросили не участвовать в VMware PEX за неделю до него, при том что мы единственные за всю историю 3 года подряд брали золотую медаль VMworld.
По архитектуре скорее ceph — как мы, но опять-же только в первом приближении.
Nutanix с 2009 года существует, просто работал только на США и только на гос. рынки.
Проблема ceph — то что это просто ФС, неплохая вполне, для многих онлайн проектов — самый лучший вариант.
Мы — конвергентная платформа, с кучей высокоуровневого функционала, максимально упрощенного управления и запуска (хватает 1 среднеквалифицированного инженера на все).
одна из самых производительных и надежных ФС в мире (NDFS), плоха лишь потому что использует для базового хранения экстентов ext4, а для метаданных — кассандру, и все это под «ужасным» линуксом который работает как запускалка наших сервисов ;))
это конечно пять баллов ;).
и конечно-же ничуть не смущает что сейчас самые производительные и надежные сетевые «железки» на сотни гигабит / терабиты трафиков (Arista Networks, F5 Networks и тд) — это тоже линукс и даже Centos.
…
а если без шуток — ext4 как раз идеальна в нашем случае, ибо от базового уровня нам просто надо сохранить мегабайтный файл на диске. Никакого другого функционала ext4 не используется. И надежность у нее — сотни миллионов инсталляций в мире (ни одна другая ФС кроме FAT разве что — и рядом не лежит).
Кстати, монтировать как собрались? NFS3 не параллелизуемый? NFS4 который никто не поддерживает до сих пор (типа ESXi)? SMB3?
Да, мы например с нуля свою реализацию SMB3 написали. Раза в 3 быстрее Самбы работает.
в 3.5.2 была самба, достала нас ужасно, за 3 месяца написали свое.
трайдент не умеет дофига. и по лейтенси только в теории близко. это опять примерно как ceph vs NDFS :)
Arista взяли Interop 2013. Читай — лучший коммутатор в мире.
www.aristanetworks.com/en/news/pressrelease/572-pr-20130508-01
“The 7500E is the winner in both the Networking and Grand Award categories, and its impressive specs are part of the reason,”
Данные ездят вслед за виртуалкой (мы все автоматом сами делаем) — при переезде VM на другой нод, данные локализуются там максимально быстро.
Есть кластера на десятки тысяч виртуалок.
Про сеть — мир меняется :)
Наш глобальный партнер, Arista Networks (подавляющее большинство наших инсталляций — на аристах) — коммутаторы 320-350нс имеют (скорость коммутации / маршрутизации, L2-L4), при смешной цене (24 wire rate порта — GPL прайс аля 12$k).
Прежде чем вам делать неверные _предположения_ — крайне желательно протестировать сначала и то и другое, затем уже говорить.
В реальность чуть ближе к нам будет только на KVM, и то весьма относительно.
Я понимаю желание защитить то что привычно (пришли тут какие-то Nutanix :) ), но надо объективнее.
лучше — потому что каждый нод физический имеет _локальный_ контроллер и _локальный_ I/O (с сохраниением копий данных на соседние ноды).
на ESXi / HyperV мы монтируемся локально (сам с себя нод монтирует), скорость — ограничние работы процессора / памяти / PCI шины.
ESXi монтирует NFS3 датастор с виртуалки запущенной на нем самом, через логический коммутатор без физических интерфейсов. HyperV тоже самое, но по SMB3 (который мы написали). KVM — iSCSI (бинго!).
100 нодов — 100 NFS / SMB3 / iSCSI «потоков». 1000 нодов — 1000 потоков («путей»). Мы превращаем старые надежные протоколы в суперпроизводительные просто за счет логики.
Адреса везде одинаковые — 192.168.5.2 (на каждом виртуальном контроллере поднят). Поэтому для гипервизора мы shared.
Это — уникальная архитектура. Никаких тыкв.
в Японии — та-же cитуация (крупнейший телеком, KVM кластер, мы собственно под них делали поддержку KVM).
в Китае — мы признаны лучшими для построения ДЦ нового поколения.
www.nutanix.com/2013/11/14/nutanix-wins-chinas-hpc-annual-big-data-infrastructure-award/
www.nutanix.com/2013/09/12/nutanix-wins-china-computerworld-award/
Gartner нас назвал Cool Vendor 2013 (Servers).
Далее. Если этот top-5 телеком рассматривает решения — то мы можем продать только ПО.
Экономика там меняется колоссально, но смысл имеется только от сотен нодов.
На питании — вы попадаете очень сильно в случае если гипервизоры типа ESXi / HyperV (сиречь — отдельные сервера от ceph кластера с реекспортами iSCSI и прочей мишурой).
В случае телекома огромного который строит свой Amazon — ceph может быть вполне разумен, спорить с этим глупо (я сам строил мега-кластера на опенсорсе, и не в РФ).
Далее, на HyperV некоторый (и очень интересный клиентам) функционал вообще чисто на SMB3 только работает.
Про энетрпрайз полки (и сервера) — мы точно так-же дешевле выходим в разы зачастую.
У нас стойка выдаст 2 миллиона IOPS на ура. При этом будут терабайты RAM и сотни процессорных ядер для работы приложений. На ceph-же будет только хранение.
Не надо теплое и мягкое плз ;)
Если нужна чисто хранилка без compute — ceph очень хорош, никто не спорит.
В РФ я ни одного «серьезного телекома» не знаю без серьезнейших пролежек (кроме N1 разве что).
Говоря откровенно — крупнейший (top-1 :D ) телеком в РФ сейчас с нами активно сотрудничает и особо не скрывают этого. Как минимум очень серьезно рассматривают нас как вариант (один из основных).
Про ceph и gluster никто даже не вспоминает — не тот уровень надежности.
А вы считали, сколько вам обойдется Ceph с коммерческой поддержкой, и еще и сервера для гипервизоров?
При том что это будет минимум в два раза больше по потреблению и в разы — по месту в ДЦ?
Ну вот взять нашу коробку 2U — NX1450. До 200 виртуалок, потребление — менее киловатта (!), 2U места в стойке.
8x10G интерфейсы (адвансерв некорректно написал, у нас на 1050 поддерживается 1G, но при этом все 10G присутствуют)
16TB + 400G*4 SSD — места на «СХД» c тирингом.
GPL — 100$k. По GPL понятно что мало кто берет.
Ну и кому реально нужен ceph-то? Без шуток, много клиентов в РФ хотя-бы? Там же тупо в пару раз больше «железа» понадобится. И кормить потом ДЦ.
iSCSI экспорт должен быть shared, так что ВСЕ ноды кластера (гипервизоры) будут завязаны на производительность и надежность конкретных нодов Ceph кластера. Да еще и ввод-вывод уже будет упираться в сетевые интерфейсы (вместо локализации). Это называется — от чего убегали, к тому и приходим обратно.
Это — мало кому нужный ахтунг. Netapp сильно лучше сделает это, право :).
Про маленькие кластеры и клиенты мы не говорим — откровенно, если нет 100$k минимального бюджета на проект — на нас лучше не смотреть.
Возможно, лет через 5-10 все и изменится…
Еще раз — просьба понять, что для бизнеса — потратить несколько сотен тысяч / миллионов долларов на коммерческую технологию — не проблема, но иметь малейшие ненужные риски «наколенных» и зависеть от инженеров своих (которые требуются весьма квалифицированные) — никто не будет.
Ровно так-же как сравнивать parrot drone за 300$ и квадрокоптеры профессиональные для МЧС за 70.000$k.
Похожие технологии, разные рынки и клиенты, разные надежности и возможности.
И я ответил.
В случае с KVM и нативным монтированием Ceph ситуация чуть получше, согласен / не спорю.
KVM в «энтерпрайзах» пропишется ой не скоро.
Нативно ни на один коммерческий (читай — самый распространенный в энтерпрайзе / правительстве / военных) — смонтировать не получится.
Куча бубнов с плясками и наслоениями протоколов. При том что iSCSI реэкспорт будет упираться все равно в производительность конкретных нодов через которые он смонтирован (никаких сотен тысяч / миллионов IOPS и близко не будет).
…
Чего уж там, раскидать 1TB данных по кластеру где десятки / сотни дисков в режиме «торрента» (экстент группы по нодам всем размазать) — проблемы большой нет.
Очевидно, что если жесткий прессинг на I/O идет (SATA уровень) — то может быть дольше, чудес тут никто не обещает.
Я абсолютно «против» наколенных вещей для непрофильных (читай — не онлайн) бизнесов.
Про «романтику» — у нас данные восстановить можно из любой проблемы практически, ввиду того что базовый уровень — ext4 (надежный как танк) и 3-5 копий метаданных.
За всю историю компании — ни одной потери данных (иначе EMC / Netapp уже бегали бы с большим красным флагом).
Я не говорю что никогда не случится, но мы по дизайну реально в первую очередь на надежность (при крайне высокой производительности) закладывались.
Констистенси мы поддерживаем, причем уже есть App. Consistency тоже (пока в бете).
Сертификации многие нам vmware мееедленно, причины можно только догадываться.
Ровно те-же по которым нас резко попросили не участвовать в VMware PEX за неделю до него, при том что мы единственные за всю историю 3 года подряд брали золотую медаль VMworld.
www.crn.com/news/virtualization/240165846/vmware-limits-some-storage-vendors-presence-at-vmware-pex.htm
(папа у vmware кто? :))) уж не EMC ли? )
Nutanix с 2009 года существует, просто работал только на США и только на гос. рынки.
Проблема ceph — то что это просто ФС, неплохая вполне, для многих онлайн проектов — самый лучший вариант.
Мы — конвергентная платформа, с кучей высокоуровневого функционала, максимально упрощенного управления и запуска (хватает 1 среднеквалифицированного инженера на все).
Ну это как говорить что ext3 конкурент FreeBSD.
одна из самых производительных и надежных ФС в мире (NDFS), плоха лишь потому что использует для базового хранения экстентов ext4, а для метаданных — кассандру, и все это под «ужасным» линуксом который работает как запускалка наших сервисов ;))
это конечно пять баллов ;).
и конечно-же ничуть не смущает что сейчас самые производительные и надежные сетевые «железки» на сотни гигабит / терабиты трафиков (Arista Networks, F5 Networks и тд) — это тоже линукс и даже Centos.
…
а если без шуток — ext4 как раз идеальна в нашем случае, ибо от базового уровня нам просто надо сохранить мегабайтный файл на диске. Никакого другого функционала ext4 не используется. И надежность у нее — сотни миллионов инсталляций в мире (ни одна другая ФС кроме FAT разве что — и рядом не лежит).
Да, мы например с нуля свою реализацию SMB3 написали. Раза в 3 быстрее Самбы работает.
в 3.5.2 была самба, достала нас ужасно, за 3 месяца написали свое.