PostgreSQL

индекс
123,82

Самая большая база данных в мире — в Yahoo! И работает она на PostgreSQL!

Яху!Компания Yahoo утверждает, что ей удалось побить мировой рекорд, создав самую большую и нагруженную базу данных в мире!

Объём запущенной год назад базы данных достиг 2 петабайт. Система создана для аналитических целей, в ней хранится история поведения веб-пользователей (утверждается, что в месяц сохраняются данные о полумиллиарде пользователей). Помимо прочего, интернет-гигант заявляет, что это не только самая большая БД в мире, но ещё и самая нагруженная — в сутки в ней регистрируются данные о 24 млрд событиях.
Постгрес!
А теперь самое интересное. Управляет этим монстром модифицированный PostgreSQL. Это — результат покупки компании-стартапа Mahat Technologies, изначально работающей с самой развитой СУБД с открытым кодом PostgreSQL. Код «Постгреса» был модифицирован для работы с такими огромными объёмами информации (одно из самых крупных изменений: ориентация на по-колоночное хранение вместо традиционного построчного, что замедляет запись на диск, но обеспечивает лучшую скорость доступа к данным для аналитических целей). Положительный результат налицо: некоторые таблицы в базе содержат триллионы строк, которые не просто лежат мёртвым грузом на дисках, но могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде.

Инженеры Yahoo ожидают рост до 5 петабайт к следующему году. И они готовы к такому росту. Для сравнения: редко встречаются БД уровня предприятия объёмом более десятков терабайт. Например, одна из самых больших публично известных БД в мире — база данных налоговой службы США «весит» всего лишь 150 терабайт. Компания EBay заявляет, что работает с системами, обрабатывающими 10 млрд строк в сутки, при этом суммарный объём данных в этих системах составляет 6 петабайт, а объём данных у самой большой из систем — около 1.4 петабайт.

Стоит понимать, что речь идёт именно о СУБД и БД построенных на них. Есть хранилища данных с ещё более впечатляющим объёмами, но при этом данные в них практически недоступны для анализа и обработки. К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 петабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF).

«PostgreSQL продолжает активно развиваться, подтверждая звание самой развитой СУБД из открытых, — комментирует представитель компании «Постгресмен» Николай Самохвалов. — В прошлом году инженеры Sun показали всему миру, что PostgreSQL не уступает в производительности Oracle. На недавно прошедшей в Канаде международной конференции PGCon2008 представители NASA рассказали о своём опыте использования PostgreSQL для работы с большими базами данных из области наблюдения за климатом. Опыт Yahoo — очередное яркое подтверждение зрелости PostgreSQL. И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
+66
27 мая 2008, 20:46
25

комментарии (53)

+3
oleg_bunin #
Круто! Парни, мы в вас верим!
0
u_story #
Немножко не понял:
"К примеру, Всемирный центр данных о климате в Гамбурге обладает хранилищем в более чем 6 терабайт данных, сохранённых на магнитной ленте, при этом в «активном» состоянии находятся «лишь» 220 терабайт данных (которые обслуживаются СУБД под управлением Linux, см. PDF)."

это как? %)
0
zolotukhin #
спасибо, поправил еще до того, как вы об этом написали :)
конечно, имелось в виду 6 петабайт
0
MaXyC #
а сколько кассет у них магнитных?
0
sigizmund #
И это очень приятная новость для всех нас, жаль лишь, что, насколько я знаю, Yahoo пока не планирует делиться своими наработками с сообществом.»
из опыта, Yahoo делится своими наработками только тогда, когда в известной степени уверен в их готовности для открытого доступа. Недавний релиз Internet Locality Platform - яркий тому пример (система существовала уже несколько лет).
0
m4spam #
На http://postgresmen.ru/news/news/view/44 отвечают 404
0
zolotukhin #
спасибо, поправил
НЛО прилетело и опубликовало эту надпись здесь
+1
aengus #
А что считается базой данных? Вот например индекс поисковой системы — чем не база данных?
+1
zolotukhin #
...могут быть запрошены и обработаны стандартным SQL, в стандартной ACID-совместимой среде...
0
aengus #
То есть речь идёт о реляционной БД. Понятно.
0
delicious #
исправьте на РБД
0
zolotukhin #
То есть в статье имеются в виду ACID-совместимые системы с SQL-интерфейсом.
+10
01000110110010010010 #
Что мне нравится в таких базах - так это то что их никакой Том Круз не упрет. Дискету не утащит)
+12
01000110110010010010 #
Да, я прямо представил как он спускается на тросе, записывает болванку, матерится, записывает еще. Лезет вверх за сумкой с болванками, курит, Лезит за внешним винчестером, курит. Ставит архивацию и решает зайти еще раз через пару недель.
+2
Vitality #
поздравляю)) вы засветились на башорге))
bash.org.ru/quote/397018 утверждена 2008-05-28 в 16:27
0
blia #
его подставили. Кто признавайтесь!!!!!
0
Vitality #
это был пеар;))
НЛО прилетело и опубликовало эту надпись здесь
+1
01000110110010010010 #
НЛО прилетело и опубликовало эту надпись здесь
0
01000110110010010010 #
5000 винчестеров по 200 гб.
+1
romx #
Причем это только база данных. А кроме этого есть почта, хостинг, фликр.
Суммарно сейчас у yahoo где-то 25 петабайт на дисковых хранилищах.
Хранилища, кстати - NetApp, любопытные системы сами по себе.
0
MikeOzornin #
Миллион «Гига».
–7
winnukem #
<irony>да вы что? для любого более-менее крупного проекта - только Oracle и Microsoft SQL, для маленьких - MySQL, а про PostgreSQL мы вообще ничего не слышали!</irony>
+4
JStingo #
Это вы зря. Если вы знаете Оракл, то вам должно было явно не хватать "чего-то" в MySQL.
Сам избалованный корпоративной базой Оракла с трудом могу смотреть на MySQL. Потому и изучаю потихоньку PostgreSQL. Чего и вам советую.
–6
iljava #
не везет вам :) как-то слабо уже шутки на хабре понимают, даже если написать "лопата", наверное обилие юмора на заглавной сказывается
0
AlienZzzz #
1. можно понятие маленький ? для вас канешно.
2. вы поработайте на постгреме и на оракле и на мускуле и на ... ну кароче попробуйте, я вот поработал, могу сказать - оракл для данных более 20 мультов записей, мускл - это по сути только для управления таблицами, не более(процедуры только недавно появились ) ), MSSQL - ну это отдельный вопрос(кто с ней работал , причем иммено работал , а не презентации показывал, меня поймут) - интересная там тема с автоинкрементом катсти, через ф., хотя может на новых версия ихменили, и у нас было еще так, что при расчете баланса все клиенты ждали пока не расчитается все(хотя мождет клиента криво написали )
+1
teitan #
"в ней хранится история поведения веб-пользователей"
"в сутки в ней регистрируются данные о 24 млрд событиях."

большой брат все таки существует...
+2
egorF #
Несколько лет назад, когда я работал партнером компании MySQL AB, мы колупались с одной базейкой весом в 401тер - под управлением тогда еще MySQL 4.1 alpha :)
+3
Roman_Mix #
Цену набивают.
0
danblack #
Вот появится репликация "из коробки" и будет всем счастье.
+2
Zeldar #
А бекапы они не забывают делать? :)
0
JStingo #
Бэкап скорее на уровне дисковой подсистемы. Иначе просто никак%)
+1
hannimed #
Отличная БД. Главное бесплатная и секурная.
0
homm #
В смысле, СУБД?
0
hannimed #
Ну да, СУБД. Писал как быстрей, а вы не скептик?
+20
homm #
Я боюсь вам отвечать с вашей аваторкой :)
+8
ognevsky #
Ну где еще могут встретиться 2 столь разных аватарками человека =)
0
defeed #
вы ещё подеритесь
+3
lasthero #
Меня забыли :)
0
hannimed #
Ну вот, когда всё утихло, скажу Вам по секрету, что мой аватар - это защита от злых детей. Сначала у меня был подобный Вашему, но т.к. карма опускалась до -15, то сменил на этот, как видите помогает :)
0
homm #
Прямо читаешь и дух захватывает. Сравнить можно только со статьями о нашей бесконечной вселенной.
0
ivolodin #
*пошел изучать
0
Pilot34 #
Офигеть, зауважал постгрескуль)
+5
zen #
Как человек, который там (PGCon 2008) был и гулял на вечеринке, которую устроила Yahoo, могу сказать, что от постгреса там не очень много осталось :) Вот фотография с этой презентации, которую сделал Gavin, там и видно, что взято от постгреса
http://www.flickr.com/photos/gavinmroy/2…

Эта тема несколько раз обсуждалась в разных барах всеми девелоперами и пока особого оптимизма никто не высказал, особенно в плане получения исходников. Пока же мы получили довольно отстойные сумки от Yahoo :)

Что касается вертикально-ориентированных БД, то эта тема пока больше смахивает на коммерческий шум, который поднял Mike Stonebraker (вот его блог: http://www.dbms2.com/category/michael-st…). Для определенного типа задач ВО-БД вполне оправданы, но не для реляционных БД общего назначения. А вообще, ВО-БД начали обсуждаться еще в 1972 году.
НЛО прилетело и опубликовало эту надпись здесь
0
romx #
Интересно, что хранится все это (и остальные данные Yahoo тоже, а их сейчас более 25PB в сумме, может и больше уже, не знаю) на дисковых системах хранения Network Appliance (AKA NetApp). Они их крупнейшие и старейшие клиенты.
А сами хранилки, кстати, не менее интересны.
+3
sysprg #
PostgreSQL безусловно молодцы! Самая прогрессивная по архитектуре и продуманная реляционная СУБД с открытым кодом - что уж говорить.
Но все-таки неправильно сравнивать базы данных разного рода чисто по объемам. К реальной производительности объем имеет косвенное отношение. Понятное дело, что на YouTube основные объемы данных - это видео-ролики. Плюс всякие логи доступа и т.п. Сама база данных как таковая сравнительно скромная по объемам - по сравнению с тем, сколько занимают видеоданные. Эти видеоданные или лежат в BLOB-ах или вообще в каком-нибудь отдельном хранилище и собственно реляционная СУБД при доступе к ним играет очень вторичную роль (лучше бы ее вообще не было, с точки зрения производительности).
У системы VISA, крупнейших банков, почтовых служб, самых больших операторов связи и т.п. объемы содержательных данных и количество транзакций наверное намного больше, чем у YouTube, особенно учитывая то, что на YouTube активно используется кэш, а кэшировать состояние счета в банке (например) невозможно по понятным причинам. :)
Но все равно информация, безусловно, интересная - спасибо за сообщение.
0
Meriados #
офигеть... вот бы к такой базе запросики пописать) хе-хе))
0
bmc #
не дай бог к такой базе запросики писать... /me крестится
0
DelphiST #
Пришёл с баша :-) хороший пиар
Сам уже перешёл с MySQL на PostgreSQL
Переходить несложно, синтаксис почти одинаковый...
Эту БД, в общем, всем рекомендую
0
madm1ke #
Почему-то мне кажется, что от кода обычного PostgreSQL там остался только парсер sql-запросов :)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.