Алгоритмы поиска, обратный индекс — Часть 1

image
C этой статьи я начинаю цикл статей по SEO, в которых будет теория, практика и советы. Начнем естественно с азов. В материале вкратце описываются алгоритмы, по которым современные поисковые системы осуществляют поиск, как проходит индексация, какие математические модели используются при поиске документов.


Что вы узнаете?


Алгоритмы поиска. Что представляет из себя индексация, инвертированный индекс. Математические модели, используемые современными поисковыми системами.

Алгоритмы поиска


  1. Прямой поиск — последовательный перебор всех данных;
  2. Инвертированных индексов — список слов (индекс-файл) документированные в алфавитном порядке с указание позиции и других параметров вхождения слова документа.

Обратный индекс


Как вы наверное догадались поисковиками используется алгоритм инвертированных индексов, т. к. использование прямого поиска гораздо более ресурсоемко. Восстановление из обратного индекса произойдет с потерями (падежи, дефисы, запятые, и т. п.). Поэтому также хранится прямой индекс документа для отображения сниппета (фрагмент найденного текста документа отображаемый в поиске).

Документ

Жил-был поп,
Толоконный лоб.
Пошел поп по базару
Посмотреть кой-какого товару.

Обратный индекс документа

базар  (3,4)
был     (1,2)
жил     (1,1)
какой  (1,1)
кой     (4,2)
лоб     (2,1)
поп     (1,3) (3,2)

Параметры указаны самые примитивные и только для примера — строка, позиция в строке. В параметрах также хранятся падежи слов, и принадлежность к пассажу.

Математическая модель


При поиске используется 3 типа математических моделей, вот они:
  1. Булевские (логические) — есть слово — найден, нет — не найден;
  2. Векторные (используются всеми ПС) — вес слова = TF * IDF;
    TF — частота слова в документе
    IDF — редкость слова в коллекции (корпус слов)
  3. Вероятностная — подбор выдачи в ручную (с помощью асессоров) — самостоятельное определение релевантности страниц.

Главное


Релевантность — степень отношения к делу. Продвигайте только релевантные документы.

Как работают поисковые системы Сегалович И.В.

П.С. Продолжение следует…
+9
10 марта 2009, 11:19
76
Kuropov 13,8

комментарии (47)

+1
KorP #
жду продолжение
+9
maxic #
Малова-то будет ;)
Следующие статьи можно чуть по больше делать, желательно со схемками, примерами
+2
Sceletrain #
Со схемкой, как поп шел на базар? =)))

А вообще, да, побольше бы информации не помешало бы.
0
maxic #
А потом как он будет искать на базаре то что ему надо.
0
Kuropov #
Хорошо, подкину одну статью по практике вне очереди...;)
+12
ni4 #
Текст ниочем.
+1
Kuropov #
Текст о том, как хранятся данные, и по каким алгоритмам (частично) происходит выборка.
Может просто ничего нового?
+1
ni4 #
Нууу, может для кого что и новое, но конкретики практически нет :-/
+1
Kuropov #
Совсем скоро исправим. Частично затрону термины, которые здесь упоминаются, это внесет ясность в вопрос.
+4
Parxxxomenko #
Это проф. деформация наверное…

С точки зрения SEO важно, прежде всего, упоминание всех ключевых слов, а не наличие смысла )))
+9
Parxxxomenko #
Поскольку я туп и ничего не понял, компенсирую упавшую самооценку своим превосходством в лит. редактуре:
***

Итак, с этой статьи, я бы хотел начать цикл статей по SEO.
— лишняя запятая

Планирую разделить его на 3 части: теория, практика, советы.
— цикл статей не делится на три части, а состоит из трех частей (статей)

Начнем, пожалуй, с самых азов — алгоритмы.
— нескладушка. В русском есть такая штука — падежи.

Но зачастую многие не знают именно азов, практически во всех областях.
— глубокая мысль, подчеркивающая уважетельное отношение к читателю. К чему относится противопоставление «но»?

***
ну и дальше одна-две речевые ошибки на предложение. А смысл, который должен связывать все приведенные определения, я уловить так и не смог…
+5
Parxxxomenko #
Вот что меня на хабре бесит — это то, что любой критический отзыв (тем более если он по делу) влечет минус в карму от обиженного автора… Теперь ничего не выложить (((
0
TimTowdy #
Некоторые заводят два аккаунта — один для плюсов, другой для правды.
0
Kuropov #
Я вас плюсанул...))
НЛО прилетело и опубликовало эту надпись здесь
+5
Frag #
CEO, chief executive officer — главный исполнительный директор.

Пишите правильно — повысят )
+3
gromka #
по моему, если сайт интересный — его в любом случае найдут.
+1
lovermann #
Это действительно так. И примером тому куча нишевых тематических сайтов, когда тема сайта — это хобби его владельца. Времени только нужно много…
НЛО прилетело и опубликовало эту надпись здесь
+2
lovermann #
Сам не умывался.
0
Arseny_Info #
По традиции во все оптимизаторские топики любят забежать SEO-ненавистники и начать пропагандировать невмешательство в выдачу.
НЛО прилетело и опубликовало эту надпись здесь
+3
Gumoza #
проблема в том что есть еще 20 000 интересных сайтов, а вам хочется чтобы нашли именно ваш
НЛО прилетело и опубликовало эту надпись здесь
0
Kuropov #
Это по вашему, если-б все так было…
+2
parovozik #
это статью могли бы оставить в черновиках =)
+1
MASe #
проблемы реального SEO — в другом…
а именно — в нюансах, которые теорию порой глобально переворачивают… причем у каждого поисковика они свои…
при поиске в интернете (а не на локальном компьютере для себя, или локальном поиске на сайте) нельзя рассматривать все эти вещи без привязки к ссылочному ранжированию, а также всевозможным фильтрам… также не стоит забывать о «весе страницы» (ВИЦе, ПР — как удобнее) — этот параметр один из важнейших на практике…

в общем так вот… анонс — сыроватый, честно говоря… может в «цикле статей» и будет рациональное зерно — посмотрим.
0
dede #
Я бы предложил автору завершить данный цикл статей ограничившись лишь одной. В статье очень много ошибок в определениях, например, «вес документа = TF * IDF» должно быть «вес слова в документе для данного множества документов = TF*IDF» и т.п. Читателям будет полезней ознакомиться с ru.wikipedia.org/wiki/Tf-idf
+1
fallen_dragon #
статья слишком коротка для новичка, а для того кто разбирается ничего нового или хорошо структуризирующего…
Мне кажется были бы полезны ссылки или вырезки с РОМИПа http://romip.ru/
0
Arseny_Info #
А откуда в обратном индексе стоп-слова?
+1
GogA #
Чуть более полная статья: Как работают поисковые системы Сегалович И.В.
+1
ainte #
Кстати да, статья полнее и интереснее.
0
Irokez #
«Векторные (используются всеми ПС) — вес документа = TF * IDF»
TF * IDF — это вес слова
а релевантность документа определяется (в самом распространенном случае) как косинус угла между векторами (документа и запроса)
0
ivv #
Автор раскусил схему работы гугля…
0
kaiART #
Жду две следующие части.
0
Zhilinsky #
Текст действительно ни о чём. Но интересно другое — почему именно этот пример про попа?
В смысле, что это — совпадение, стандартно используемый шаблон или пересказ первой лекции по SEO одного известноно НОУ?
0
Kuropov #
Именно поэтому и взят пример, для простоты.
0
Scream1982 #
малоинформативно.
ждем продолжения.
пока ниапчОм.
Любой учебник по поисковой оптимизации во вступлении более широко озвучивает основы!
А вообще, пустое это дело.
Кому надо, те на серченжинс сидят и там все изучают.
А новичку для ознакомления проще скачать учебник по основам, коих в паблике сейчас немало. В т.ч. и рукописи Ашманова.
НЛО прилетело и опубликовало эту надпись здесь
0
Snowcore #
Вот вам парочка книг для начинающих:

1) Оптимизация и продвижение
2) Книга начинающего SEO оптимизатора
–2
anreyyyy #
в статье много воды.

реально на выдачу влияют:
1) ссылки, ссылки и еще раз ссылки, ссылки должны быть «правильными» )))))
2) заголовок (title)
3) ключевики в тексте
+3
Kuropov #
Это статья не о том, что влияет на выдачу.
–1
Floks #
Не буду судить о компетентности автора, но даже со своими поверхностными знаниями в СЕО могу сказать, что такая статья совсем не нужна новичкам, ведь это путает! Начинаете использовать важные в СЕО термины, только очень странно их объясняете.
Ну что это такое «Релевантность — степень отношения к делу. Продвигайте только релевантные документы.»!
Не нужно лить столько воды! Будьте точнее!
+2
maggg #
А по-моему мамое главное, что нужно вдолбить в голову каждого новичка — «Продвигайте только релевантные документы». Тогда говна будет меньше.
0
Floks #
Вот я прочитал эту статью и побежал продвигать нерелевантные документы! Сначала надо разъяснить, что такое релевантность и от чего она зависит, а потом вдалбливать!
–1
odessky #
Все просто
Есть контент
Есть внешние ссылки

Если контент уникальный а внешние ссылки весомы — то сайт будет найден

Например, диллеру автомобилей очень выгодно иметь ссылку с сайта производителя машин
+1
LDEV #
Неожиданно кончилась статья. Я даже уселся поудобнее, чтобы вникнуть — а тут… Ну тогда ждём продолжения!

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.