Самая большая база данных в мире — в Yahoo! И работает она на PostgreSQL!

    Яху!Компания Yahoo утверждает, что ей удалось побить мировой рекорд, создав самую большую и нагруженную базу данных в мире!

    Объём запущенной год назад базы данных достиг 2 петабайт. Система создана для аналитических целей, в ней хранится история поведения веб-пользователей (утверждается, что в месяц сохраняются данные о полумиллиарде пользователей). Помимо прочего, интернет-гигант заявляет, что это не только самая большая БД в мире, но ещё и самая нагруженная — в сутки в ней регистрируются данные о 24 млрд событиях.
    Постгрес!
    А теперь самое интересное. Управляет этим монстром модифицированный PostgreSQL. Это — результат покупки компании-стартапа Mahat Technologies, изначально работающей с самой развитой СУБД с открытым кодом PostgreSQL. Код «Постгреса» был модифицирован для работы с такими огромными объёмами информации (одно из самых крупных изменений: ориентация на по-колоночное хранение вместо традиционного построчного, что замедляет запись на диск, но обеспечивает лучшую скорость доступа к данным для аналитических целей). Положительный результат налицо: некоторые таблицы в базе содержат триллионы строк, которые не просто лежат мёртвым грузом на дисках, но могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде.

    Инженеры Yahoo ожидают рост до 5 петабайт к следующему году. И они готовы к такому росту. Для сравнения: редко встречаются БД уровня предприятия объёмом более десятков терабайт. Например, одна из самых больших публично известных БД в мире — база данных налоговой службы США «весит» всего лишь 150 терабайт. Компания EBay заявляет, что работает с системами, обрабатывающими 10 млрд строк в сутки, при этом суммарный объём данных в этих системах составляет 6 петабайт, а объём данных у самой большой из систем — около 1.4 петабайт.

    Стоит понимать, что речь идёт именно о СУБД и БД построенных на них. Есть хранилища данных с ещё более впечатляющим объёмами, но при этом данные в них практически недоступны для анализа и обработки. К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 петабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF).

    «PostgreSQL продолжает активно развиваться, подтверждая звание самой развитой СУБД из открытых, — комментирует представитель компании «Постгресмен» Николай Самохвалов. — В прошлом году инженеры Sun показали всему миру, что PostgreSQL не уступает в производительности Oracle. На недавно прошедшей в Канаде международной конференции PGCon2008 представители NASA рассказали о своём опыте использования PostgreSQL для работы с большими базами данных из области наблюдения за климатом. Опыт Yahoo — очередное яркое подтверждение зрелости PostgreSQL. И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама
    Комментарии 53
    • +3
      Круто! Парни, мы в вас верим!
      • 0
        Немножко не понял:
        "К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 терабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF)."

        это как? %)
        • 0
          спасибо, поправил еще до того, как вы об этом написали :)
          конечно, имелось в виду 6 петабайт
          • 0
            а сколько кассет у них магнитных?
          • 0
            И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
            из опыта, Yahoo делится своими наработками только тогда, когда в известной степени уверен в их готовности для открытого доступа. Недавний релиз Internet Locality Platform - яркий тому пример (система существовала уже несколько лет).
            • 0
              На http://postgresmen.ru/news/news/view/44 отвечают 404
            • НЛО прилетело и опубликовало эту надпись здесь
              • +1
                А что считается базой данных? Вот например индекс поисковой системы — чем не база данных?
                • +1
                  ...могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде...
                  • 0
                    То есть речь идёт о реляционной БД. Понятно.
                    • 0
                      исправьте на РБД
                    • 0
                      То есть в статье имеются в виду ACID-совместимые системы с SQL-интерфейсом.
                    • +10
                      Что мне нравится в таких базах - так это то что их никакой Том Круз не упрет. Дискету не утащит)
                      • +12
                        Да, я прямо представил как он спускается на тросе, записывает болванку, матерится, записывает еще. Лезет вверх за сумкой с болванками, курит, Лезит за внешним винчестером, курит. Ставит архивацию и решает зайти еще раз через пару недель.
                        • +2
                          поздравляю)) вы засветились на башорге))
                          bash.org.ru/quote/397018 утверждена 2008-05-28 в 16:27
                          • 0
                            его подставили. Кто признавайтесь!!!!!
                    • НЛО прилетело и опубликовало эту надпись здесь
                        • НЛО прилетело и опубликовало эту надпись здесь
                          • 5000 винчестеров по 200 гб.
                            • +1
                              Причем это только база данных. А кроме этого есть почта, хостинг, фликр.
                              Суммарно сейчас у yahoo где-то 25 петабайт на дисковых хранилищах.
                              Хранилища, кстати - NetApp, любопытные системы сами по себе.
                        • 0
                          Миллион «Гига».
                        • –7
                          <irony>да вы что? для любого более-менее крупного проекта - только Oracle и Microsoft SQL, для маленьких - MySQL, а про PostgreSQL мы вообще ничего не слышали!</irony>
                          • +4
                            Это вы зря. Если вы знаете Оракл, то вам должно было явно не хватать "чего-то" в MySQL.
                            Сам избалованный корпоративной базой Оракла с трудом могу смотреть на MySQL. Потому и изучаю потихоньку PostgreSQL. Чего и вам советую.
                            • –6
                              не везет вам :) как-то слабо уже шутки на хабре понимают, даже если написать "лопата", наверное обилие юмора на заглавной сказывается
                              • 0
                                1. можно понятие маленький ? для вас канешно.
                                2. вы поработайте на постгреме и на оракле и на мускуле и на ... ну кароче попробуйте, я вот поработал, могу сказать - оракл для данных более 20 мультов записей, мускл - это по сути только для управления таблицами, не более(процедуры только недавно появились ) ), MSSQL - ну это отдельный вопрос(кто с ней работал , причем иммено работал , а не презентации показывал, меня поймут) - интересная там тема с автоинкрементом катсти, через ф., хотя может на новых версия ихменили, и у нас было еще так, что при расчете баланса все клиенты ждали пока не расчитается все(хотя мождет клиента криво написали )
                              • +1
                                "в ней хранится история поведения веб-пользователей"
                                "в сутки в ней регистрируются данные о 24 млрд событиях."

                                большой брат все таки существует...
                                • +2
                                  Несколько лет назад, когда я работал партнером компании MySQL AB, мы колупались с одной базейкой весом в 401тер - под управлением тогда еще MySQL 4.1 alpha :)
                                  • +3
                                    Цену набивают.
                                    • 0
                                      Вот появится репликация "из коробки" и будет всем счастье.
                                      • +2
                                        А бекапы они не забывают делать? :)
                                        • 0
                                          Бэкап скорее на уровне дисковой подсистемы. Иначе просто никак%)
                                        • +1
                                          Отличная БД. Главное бесплатная и секурная.
                                          • 0
                                            В смысле, СУБД?
                                            • 0
                                              Ну да, СУБД. Писал как быстрей, а вы не скептик?
                                              • +20
                                                Я боюсь вам отвечать с вашей аваторкой :)
                                                • +8
                                                  Ну где еще могут встретиться 2 столь разных аватарками человека =)
                                                  • 0
                                                    вы ещё подеритесь
                                                    • +3
                                                      Меня забыли :)
                                                      • 0
                                                        Ну вот, когда всё утихло, скажу Вам по секрету, что мой аватар - это защита от злых детей. Сначала у меня был подобный Вашему, но т.к. карма опускалась до -15, то сменил на этот, как видите помогает :)
                                                • 0
                                                  Прямо читаешь и дух захватывает. Сравнить можно только со статьями о нашей бесконечной вселенной.
                                                  • 0
                                                    *пошел изучать
                                                    • 0
                                                      Офигеть, зауважал постгрескуль)
                                                      • +5
                                                        Как человек, который там (PGCon 2008) был и гулял на вечеринке, которую устроила Yahoo, могу сказать, что от постгреса там не очень много осталось :) Вот фотография с этой презентации, которую сделал Gavin, там и видно, что взято от постгреса
                                                        http://www.flickr.com/photos/gavinmroy/2…

                                                        Эта тема несколько раз обсуждалась в разных барах всеми девелоперами и пока особого оптимизма никто не высказал, особенно в плане получения исходников. Пока же мы получили довольно отстойные сумки от Yahoo :)

                                                        Что касается вертикально-ориентированных БД, то эта тема пока больше смахивает на коммерческий шум, который поднял Mike Stonebraker (вот его блог: http://www.dbms2.com/category/michael-st…). Для определенного типа задач ВО-БД вполне оправданы, но не для реляционных БД общего назначения. А вообще, ВО-БД начали обсуждаться еще в 1972 году.
                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                          • 0
                                                            Интересно, что хранится все это (и остальные данные Yahoo тоже, а их сейчас более 25PB в сумме, может и больше уже, не знаю) на дисковых системах хранения Network Appliance (AKA NetApp). Они их крупнейшие и старейшие клиенты.
                                                            А сами хранилки, кстати, не менее интересны.
                                                            • +3
                                                              PostgreSQL безусловно молодцы! Самая прогрессивная по архитектуре и продуманная реляционная СУБД с открытым кодом - что уж говорить.
                                                              Но все-таки неправильно сравнивать базы данных разного рода чисто по объемам. К реальной производительности объем имеет косвенное отношение. Понятное дело, что на YouTube основные объемы данных - это видео-ролики. Плюс всякие логи доступа и т.п. Сама база данных как таковая сравнительно скромная по объемам - по сравнению с тем, сколько занимают видеоданные. Эти видеоданные или лежат в BLOB-ах или вообще в каком-нибудь отдельном хранилище и собственно реляционная СУБД при доступе к ним играет очень вторичную роль (лучше бы ее вообще не было, с точки зрения производительности).
                                                              У системы VISA, крупнейших банков, почтовых служб, самых больших операторов связи и т.п. объемы содержательных данных и количество транзакций наверное намного больше, чем у YouTube, особенно учитывая то, что на YouTube активно используется кэш, а кэшировать состояние счета в банке (например) невозможно по понятным причинам. :)
                                                              Но все равно информация, безусловно, интересная - спасибо за сообщение.
                                                              • 0
                                                                офигеть... вот бы к такой базе запросики пописать) хе-хе))
                                                                • 0
                                                                  не дай бог к такой базе запросики писать... /me крестится
                                                                • 0
                                                                  Пришёл с баша :-) хороший пиар
                                                                  Сам уже перешёл с MySQL на PostgreSQL
                                                                  Переходить несложно, синтаксис почти одинаковый...
                                                                  Эту БД, в общем, всем рекомендую
                                                                  • 0
                                                                    Почему-то мне кажется, что от кода обычного PostgreSQL там остался только парсер sql-запросов :)

                                                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.