Поисковые машины и технологии

индекс
99,36

Общедоступный индекс веба (5 миллиардов веб-страниц)

Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.
+58
8 ноября 2011, 18:20
110

комментарии (39)

+3
frig #
Просто подарок любителям сеток ГС и автоматической генерации контента. Контента… бери не хочу.
+5
Claud #
И чего они будут делать с этим? Проще парсить RSS для этого. А вот создать сервис для SEO-шников, чтобы смотреть беки это можно. Вот только таких сервисов уже есть пара штук и как я знаю базу они собирают сами: индексируют web своим пауком.
+1
frig #
Можно и RSS парсить. Там, где он есть, конечно. А тут громадные объемы наверняка не просто сырой а как-то структурированной информации. Причем с графом ссылок! Для генерации контента, имхо, очень вкусная должна быть основа.

И для мирного использования можно применять, конечно. Мне, правда, кроме скармливания этого потока какому-то подобию ИИ для обучения больше ничего сразу в голову не приходит.
+7
catsmile #
Ура, теперь интернет можно скачать на дискетку. На большую, правда, дискетку.
+2
abiruba #
Анатоле улыбается, когда кто-то заморачивается сохранением интернета на диск. Лишние телодвижения.
–1
AVGUR #
Анатоле сохраняет в мозг, что бы лишний раз не шевелится? :-)
+1
chegor #
Вообще то мозг Анатоле — это и есть интернет.
+7
LORiO #
Так и представляю картину, В метро В ларьке «Весь интернет на 1 dvd, без потерь качества»
+1
Deranged #
3 интернета в 1.
+4
ArsNG #
Полная Русская Версия 2011!
–1
eZyatev #
Gold Edition by Saduga!
0
KirEv #
> Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Интересно, каким образом? Не вижу закономерности.
0
Goder #
Оффлайн-гугл. Качаешь себе 50 Тб данных и ищешь, что нужно, у себя на компьютере! %)
+2
LORiO #
только скорость поиска будет так себе)
0
KirEv #
И качать больше года, при канале в 10мбит)
0
Harkonnen #
гугла не выйдет. 50Тб весят урлы, а не контент
+2
Goder #
Вы всегда такой зануда?:)
+1
Harkonnen #
Просто люблю обламывать мысли о халяве :)
–1
arty #
50 ТБ / 5 миллиардов страниц = 10 000 байт на урл. Не верю.
0
kAIST #
А как же связи?
–1
arty #
10000 байт записи / ~100 байт на связь ≅ 100 связей у страницы. Не верю.
+6
crwin #
Когда на торрентах?
+6
frig #
Кстати отличнейший способ распространения такого объема информации.
+1
dmitriid #
Если оно выложено на S3, то оно уже доступно в виде торрента.
+1
undead_ekb #
Что, что?
+1
dmitriid #
Охохох. Как на хабре любят минусовать…

aws.amazon.com/s3/faqs/#What_is_the_BitTorrent_TM_protocol_and_how_do_I_use_it_with_Amazon_S3

Правда, сейчас перечитал топик, они таки не полностью в открытый доступ выложили, жаль
0
SFx #
пошел затариваться домашним поисковым кластером…
0
aNDREIQA #
информация в сети генерируется очень быстрыми темпами, как их паук справляется с задачей получения актуальной информации?
+38
kunfuzi #
А что тут не понятно? Когда ему на пути встречается другой паук, он его пожирает, тем самым поглощая собранную информацию.
0
diamant #
Главное, чтобы ему не встретился паук Гугла.
Хотя, автор сервиса — работник Гугла, наверное гугловский паук примет его за своего.
+1
SergeyNeiger #
В конце останется только Один!
Борн ту би кинг оф зе Юнивёрс! (и музыка Queen из Горца)
0
RomanL #
Интересно что там в этой базе с русским интернетом.
0
kunfuzi #
не хочу показаться капитаном, но выше я уже ответил на этот вопрос, если им на своем пути, встречался например паук Яндекса, то там с русским должно быть все в порядке
0
dmitriid #
Хороший датасет для тестирования вских GraphDB
–1
Methos #
Да кому нужна эта куча мусора?
Лучше бы хабр проиндексировали — этого достаточно =)
+3
fzn7 #
Куча мусора? Как по мне так куча возможностей. К примеру можно выделить графы страниц, профильных для какой-то отрасли, затем сделать коллектор отраслевых новостей и скормить это биржевому боту. Сценарий кажется утопичным, но если посидеть с бумажкой, ручкой и применить мат. аппарат, то можно заработать кучу денег.
0
Funcraft #
Как показывает история, такой объём данных лишним не бывает.
+1
sergtop #
Лет 10 назад Гугл (тогда еще мало кому известный… да, были времена) присылал по почте 5 cd с данными пауков для участия в конкурсе по программированию каких-то алгоритмов… похоже опять конкурс только рассылать cd теперь накладнее
0
Lux_In_Tenebris #
теперь шкафчик с жёсткими дисками будет

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.