Пользователь
0,0
рейтинг
27 мая 2008 в 20:46

Разработка → Самая большая база данных в мире — в Yahoo! И работает она на PostgreSQL!

Яху!Компания Yahoo утверждает, что ей удалось побить мировой рекорд, создав самую большую и нагруженную базу данных в мире!

Объём запущенной год назад базы данных достиг 2 петабайт. Система создана для аналитических целей, в ней хранится история поведения веб-пользователей (утверждается, что в месяц сохраняются данные о полумиллиарде пользователей). Помимо прочего, интернет-гигант заявляет, что это не только самая большая БД в мире, но ещё и самая нагруженная — в сутки в ней регистрируются данные о 24 млрд событиях.
Постгрес!
А теперь самое интересное. Управляет этим монстром модифицированный PostgreSQL. Это — результат покупки компании-стартапа Mahat Technologies, изначально работающей с самой развитой СУБД с открытым кодом PostgreSQL. Код «Постгреса» был модифицирован для работы с такими огромными объёмами информации (одно из самых крупных изменений: ориентация на по-колоночное хранение вместо традиционного построчного, что замедляет запись на диск, но обеспечивает лучшую скорость доступа к данным для аналитических целей). Положительный результат налицо: некоторые таблицы в базе содержат триллионы строк, которые не просто лежат мёртвым грузом на дисках, но могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде.

Инженеры Yahoo ожидают рост до 5 петабайт к следующему году. И они готовы к такому росту. Для сравнения: редко встречаются БД уровня предприятия объёмом более десятков терабайт. Например, одна из самых больших публично известных БД в мире — база данных налоговой службы США «весит» всего лишь 150 терабайт. Компания EBay заявляет, что работает с системами, обрабатывающими 10 млрд строк в сутки, при этом суммарный объём данных в этих системах составляет 6 петабайт, а объём данных у самой большой из систем — около 1.4 петабайт.

Стоит понимать, что речь идёт именно о СУБД и БД построенных на них. Есть хранилища данных с ещё более впечатляющим объёмами, но при этом данные в них практически недоступны для анализа и обработки. К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 петабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF).

«PostgreSQL продолжает активно развиваться, подтверждая звание самой развитой СУБД из открытых, — комментирует представитель компании «Постгресмен» Николай Самохвалов. — В прошлом году инженеры Sun показали всему миру, что PostgreSQL не уступает в производительности Oracle. На недавно прошедшей в Канаде международной конференции PGCon2008 представители NASA рассказали о своём опыте использования PostgreSQL для работы с большими базами данных из области наблюдения за климатом. Опыт Yahoo — очередное яркое подтверждение зрелости PostgreSQL. И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
O_omicron @zolotukhin
карма
44,4
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (53)

  • +3
    Круто! Парни, мы в вас верим!
  • 0
    Немножко не понял:
    "К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 терабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF)."

    это как? %)
    • 0
      спасибо, поправил еще до того, как вы об этом написали :)
      конечно, имелось в виду 6 петабайт
    • 0
      а сколько кассет у них магнитных?
  • 0
    И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
    из опыта, Yahoo делится своими наработками только тогда, когда в известной степени уверен в их готовности для открытого доступа. Недавний релиз Internet Locality Platform - яркий тому пример (система существовала уже несколько лет).
  • 0
    На http://postgresmen.ru/news/news/view/44 отвечают 404
    • 0
      спасибо, поправил
  • НЛО прилетело и опубликовало эту надпись здесь
  • +1
    А что считается базой данных? Вот например индекс поисковой системы — чем не база данных?
    • +1
      ...могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде...
      • 0
        То есть речь идёт о реляционной БД. Понятно.
      • 0
        исправьте на РБД
    • 0
      То есть в статье имеются в виду ACID-совместимые системы с SQL-интерфейсом.
  • +10
    Что мне нравится в таких базах - так это то что их никакой Том Круз не упрет. Дискету не утащит)
    • +12
      Да, я прямо представил как он спускается на тросе, записывает болванку, матерится, записывает еще. Лезет вверх за сумкой с болванками, курит, Лезит за внешним винчестером, курит. Ставит архивацию и решает зайти еще раз через пару недель.
      • +2
        поздравляю)) вы засветились на башорге))
        bash.org.ru/quote/397018 утверждена 2008-05-28 в 16:27
        • 0
          его подставили. Кто признавайтесь!!!!!
          • 0
            это был пеар;))
  • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          5000 винчестеров по 200 гб.
          • +1
            Причем это только база данных. А кроме этого есть почта, хостинг, фликр.
            Суммарно сейчас у yahoo где-то 25 петабайт на дисковых хранилищах.
            Хранилища, кстати - NetApp, любопытные системы сами по себе.
    • 0
      Миллион «Гига».
  • –7
    <irony>да вы что? для любого более-менее крупного проекта - только Oracle и Microsoft SQL, для маленьких - MySQL, а про PostgreSQL мы вообще ничего не слышали!</irony>
    • +4
      Это вы зря. Если вы знаете Оракл, то вам должно было явно не хватать "чего-то" в MySQL.
      Сам избалованный корпоративной базой Оракла с трудом могу смотреть на MySQL. Потому и изучаю потихоньку PostgreSQL. Чего и вам советую.
    • –6
      не везет вам :) как-то слабо уже шутки на хабре понимают, даже если написать "лопата", наверное обилие юмора на заглавной сказывается
    • 0
      1. можно понятие маленький ? для вас канешно.
      2. вы поработайте на постгреме и на оракле и на мускуле и на ... ну кароче попробуйте, я вот поработал, могу сказать - оракл для данных более 20 мультов записей, мускл - это по сути только для управления таблицами, не более(процедуры только недавно появились ) ), MSSQL - ну это отдельный вопрос(кто с ней работал , причем иммено работал , а не презентации показывал, меня поймут) - интересная там тема с автоинкрементом катсти, через ф., хотя может на новых версия ихменили, и у нас было еще так, что при расчете баланса все клиенты ждали пока не расчитается все(хотя мождет клиента криво написали )
  • +1
    "в ней хранится история поведения веб-пользователей"
    "в сутки в ней регистрируются данные о 24 млрд событиях."

    большой брат все таки существует...
  • +2
    Несколько лет назад, когда я работал партнером компании MySQL AB, мы колупались с одной базейкой весом в 401тер - под управлением тогда еще MySQL 4.1 alpha :)
  • +3
    Цену набивают.
  • 0
    Вот появится репликация "из коробки" и будет всем счастье.
  • +2
    А бекапы они не забывают делать? :)
    • 0
      Бэкап скорее на уровне дисковой подсистемы. Иначе просто никак%)
  • +1
    Отличная БД. Главное бесплатная и секурная.
    • 0
      В смысле, СУБД?
      • 0
        Ну да, СУБД. Писал как быстрей, а вы не скептик?
        • +20
          Я боюсь вам отвечать с вашей аваторкой :)
          • +8
            Ну где еще могут встретиться 2 столь разных аватарками человека =)
          • 0
            вы ещё подеритесь
          • +3
            Меня забыли :)
          • 0
            Ну вот, когда всё утихло, скажу Вам по секрету, что мой аватар - это защита от злых детей. Сначала у меня был подобный Вашему, но т.к. карма опускалась до -15, то сменил на этот, как видите помогает :)
  • 0
    Прямо читаешь и дух захватывает. Сравнить можно только со статьями о нашей бесконечной вселенной.
  • 0
    *пошел изучать
  • 0
    Офигеть, зауважал постгрескуль)
  • +5
    Как человек, который там (PGCon 2008) был и гулял на вечеринке, которую устроила Yahoo, могу сказать, что от постгреса там не очень много осталось :) Вот фотография с этой презентации, которую сделал Gavin, там и видно, что взято от постгреса
    http://www.flickr.com/photos/gavinmroy/2…

    Эта тема несколько раз обсуждалась в разных барах всеми девелоперами и пока особого оптимизма никто не высказал, особенно в плане получения исходников. Пока же мы получили довольно отстойные сумки от Yahoo :)

    Что касается вертикально-ориентированных БД, то эта тема пока больше смахивает на коммерческий шум, который поднял Mike Stonebraker (вот его блог: http://www.dbms2.com/category/michael-st…). Для определенного типа задач ВО-БД вполне оправданы, но не для реляционных БД общего назначения. А вообще, ВО-БД начали обсуждаться еще в 1972 году.
  • НЛО прилетело и опубликовало эту надпись здесь
  • 0
    Интересно, что хранится все это (и остальные данные Yahoo тоже, а их сейчас более 25PB в сумме, может и больше уже, не знаю) на дисковых системах хранения Network Appliance (AKA NetApp). Они их крупнейшие и старейшие клиенты.
    А сами хранилки, кстати, не менее интересны.
  • +3
    PostgreSQL безусловно молодцы! Самая прогрессивная по архитектуре и продуманная реляционная СУБД с открытым кодом - что уж говорить.
    Но все-таки неправильно сравнивать базы данных разного рода чисто по объемам. К реальной производительности объем имеет косвенное отношение. Понятное дело, что на YouTube основные объемы данных - это видео-ролики. Плюс всякие логи доступа и т.п. Сама база данных как таковая сравнительно скромная по объемам - по сравнению с тем, сколько занимают видеоданные. Эти видеоданные или лежат в BLOB-ах или вообще в каком-нибудь отдельном хранилище и собственно реляционная СУБД при доступе к ним играет очень вторичную роль (лучше бы ее вообще не было, с точки зрения производительности).
    У системы VISA, крупнейших банков, почтовых служб, самых больших операторов связи и т.п. объемы содержательных данных и количество транзакций наверное намного больше, чем у YouTube, особенно учитывая то, что на YouTube активно используется кэш, а кэшировать состояние счета в банке (например) невозможно по понятным причинам. :)
    Но все равно информация, безусловно, интересная - спасибо за сообщение.
  • 0
    офигеть... вот бы к такой базе запросики пописать) хе-хе))
    • 0
      не дай бог к такой базе запросики писать... /me крестится
  • 0
    Пришёл с баша :-) хороший пиар
    Сам уже перешёл с MySQL на PostgreSQL
    Переходить несложно, синтаксис почти одинаковый...
    Эту БД, в общем, всем рекомендую
  • 0
    Почему-то мне кажется, что от кода обычного PostgreSQL там остался только парсер sql-запросов :)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.