Поиск и выделение слов в тексте (Алгоритм)

Question

winbackgo @winbackgo

Поиск и выделение слов в тексте (Алгоритм)

Есть база людей, каждая запись может содержать неограниченное кол-во синонимов (имена написанные на разных языках, клички и т.д.). Все записи (как синонимы, так и названия) абсолютно уникальны. По этим данным строиться индекс таблица (назовем ее source) которая может быть представлена так:

name VARCHAR(128),
person_id INT(10),
UNIQUE KEY name (name)

Итак, стоит задача, найти и выделить в тексте слова найденные в базе. Задача усложняется тем, что в тексте имена могут быть в разной падежной форме.

Мой велосипед:

На базе source строим индекс в sphinx состоящий из триграмм, отбрасываем записи длиною менее 2 символов.
В тексте выбираем все слова которые начинаются с заглавной буквы, игнорируя двухсимвольные. Если слова идут подряд, то считаем их как одно (ФИО). С опаской относимся к словам в начале предложений.
Превращаем их в триграммы и кидаем запрос сфинксу.
Выбираем из результата одно самое подходящее и далее выделяем его в тексте.

Подразумеваю что порог ошибок в данном случае будет около 5%, что в принципе допустимо (ошибочное можно исправить вручную).

В общем, хотел бы узнать: Какие недочеты есть в моем алгоритме и какие могут быть предложения по улучшению? Какие существуют решения похожих задач (наверняка есть, но что-то я туплю, или красивых слов не знаю, поэтому гугл не дает ничего вразумительного)? Как бы вы решили эту задачу?

Вопрос задан более трёх лет назад
7624 просмотра

4 комментария

Подписаться 8 Оценить 4 комментария

1010101001000100110100111 @1010101001000100110100111

Для начала постройте полный список всех словоформ (с учетом падежей и прочее).
Потом, если, важно делать нечеткий поиск, с опечатками (пропусками букв, втавками букв, перестановкой букв) — расширьте этот список вариантами, полученными удалением одного каждого символа во всех словах (из полного списка словоформ). Далее постройте хеши по полученным вариантам. И эту хрень можете в базу залить.

Как искать?
Берете текст, выдергиваете все слова, приводите их к нужному регистру, и (если нужен нечеткий поиск) для каждого слова удаляете по одной буковке. В итоге, для каждого слова получаете набор слов с выбитыми буквами, для которых считаете хеши. Если один их хешей присутствует в базе — выделяете это слово, иначе — пропускаете.

Написано более трёх лет назад
winbackgo @winbackgo Автор вопроса

>> Для начала постройте полный список всех словоформ (с учетом падежей и прочее).
Это невозможно, их очень много + добавляются новые в авторежиме.

Написано более трёх лет назад
1010101001000100110100111 @1010101001000100110100111

Так и достраивайте в авторежиме по-аналогии с имеющимися (пробуйте автоматически выявлять парадигму словообразования для новых добавляемых слов)

Написано более трёх лет назад
winbackgo @winbackgo Автор вопроса

Ваша идея понятна. Спасибо. Но мне кажется использование триграмм будет более эффективным. Вот несколько ссылок по теме habrahabr.ru/post/78566/ habrahabr.ru/post/61807/

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

2 комментария

4 комментария

winbackgo @winbackgo Автор вопроса

Извините, а при чем тут морфология, нормализация и т.д.?

Написано более трёх лет назад
1010101001000100110100111 @1010101001000100110100111

А, еще, MySpell/ASpell/PSpell/Hunspell/*Spell

Написано более трёх лет назад
winbackgo @winbackgo Автор вопроса

Задач стоит в том чтобы сделать тоже самое что sphinx excerpts или lucene highlighter только не подсвечивать заданные ключевые слова в результатах поиска, а наоборот и искать из миллиона слов в индексе совпадения в заданном тексте. Был бы очень рад найти готовое решение и не париться с реализацией.

Написано более трёх лет назад
grossws @grossws

При создании поискового индекса (что в sphinx, что в solr/elasticsearch/lucene) слова сначала нормализуются, чтобы не раздувать индекс. Т. е. две разных словоформы должны одинаково приводить к хиту. Поэтому то, что предлагает 1010101001000100110100111 выглядит идиотизмом (в смысле, загнать в индекс все словоформы).
Вы все равно хотите подсвечивать хиты из индекса. Оно, конечно, относительно дорого, но реалистично. Далее Вы берете токенизатор и проходите по всему тексту, нормализуя слова и проверяете каждое встретившееся впервые на наличие в индексе. Если индекс влезет в память — будет быстро, если нет — такова судьба.
Стеммер Портера не лучшее решение, хотя и простое. Например, Иванов и Иванова будут иметь разную норму (Иван и Иванов, соответственно).

Написано более трёх лет назад

4 комментария

winbackgo @winbackgo Автор вопроса

Промахнулся(

Написано более трёх лет назад
ffriend @ffriend

На листьях. Trie — это тот же ассоциативный массив, просто со специфической структурой хранения и поиска.

Написано более трёх лет назад
winbackgo @winbackgo Автор вопроса
т.е. это будет выглядеть так? (скажем для имени Maya):

{ "m": { "ma": { "may": { "maya": { "_id_": 5 } } } } }
Написано более трёх лет назад
ffriend @ffriend

Да, именно так.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 12 часов назад
- 84 просмотра
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- вчера
- 102 просмотра
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- вчера
- 428 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 73 просмотра
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 102 просмотра
3

ответа
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 5438 просмотров
3

ответа
Алгоритмы

+1 ещё

Простой
Как узнать, входит ли игрок1 (x,y,z) в поле игрок2 (x,y,z)?
- 1 подписчик
- 08 апр.
- 190 просмотров
3

ответа
C++

+1 ещё

Простой
Как решить данную задачу при помощи префиксного дерева?
- 2 подписчика
- 05 апр.
- 200 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Есть ли современная реализации алгоритма триангуляции невыпуклого многоугольника с отверстиями?
- 1 подписчик
- 29 мар.
- 109 просмотров
0

ответов
JavaScript

+1 ещё

Средний
Как найти начальную точку для определения маршрутов в двумерном массиве?
- 1 подписчик
- 15 мар.
- 227 просмотров
6

ответов
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Исправить адаптивную верстку на Tilda Zero Block

20 апр. 2024, в 06:39

4000 руб./за проект

Доработка аддона для Xenforo v2.2.13

20 апр. 2024, в 06:06

200 руб./за проект

Привязка к Маркетплейсам 1С Розница 2.3

20 апр. 2024, в 05:26

10000 руб./за проект

Для начала постройте полный список всех словоформ (с учетом падежей и прочее).
Потом, если, важно делать нечеткий поиск, с опечатками (пропусками букв, втавками букв, перестановкой букв) — расширьте этот список вариантами, полученными удалением одного каждого символа во всех словах (из полного списка словоформ). Далее постройте хеши по полученным вариантам. И эту хрень можете в базу залить.

Как искать?
Берете текст, выдергиваете все слова, приводите их к нужному регистру, и (если нужен нечеткий поиск) для каждого слова удаляете по одной буковке. В итоге, для каждого слова получаете набор слов с выбитыми буквами, для которых считаете хеши. Если один их хешей присутствует в базе — выделяете это слово, иначе — пропускаете.
>> Для начала постройте полный список всех словоформ (с учетом падежей и прочее).
Это невозможно, их очень много + добавляются новые в авторежиме.
Так и достраивайте в авторежиме по-аналогии с имеющимися (пробуйте автоматически выявлять парадигму словообразования для новых добавляемых слов)
Ваша идея понятна. Спасибо. Но мне кажется использование триграмм будет более эффективным. Вот несколько ссылок по теме habrahabr.ru/post/78566/ habrahabr.ru/post/61807/

Answer 1 · 2012-07-14 01:29:48

Для начала понадобится отдельная функция или утилита stem(), которая для любого слова вернёт его основу (именно это и делают поисковые движки, в т.ч. Sphinx и Lucene, откуда её и можно достать и использовать в своих целях). Также не помешает функция tokenize(), разбивающая

Если такая функция есть. Проходим по всем словам из словаря (source), а из получившихся основ строим trie, в котором листьями будут соответствующие person_id. Имена из 2 и более слов транслируются в n-граммы соответсвующих основ, разделённые пробелами. Т.е. имя «Иванова Анна Михайловна» будет транслировано во что-то вроде «иванов анн михайловн» (использовать lowercase-фильтр или нет — это уже зависит от приложения и текста: если текст грамотный, то не надо, если «из интернетов», то лучше всё-таки использовать).

Дальше токенизируем текст, стеммим каждое слово и последовательно ищем их в нашем trie. Можно искать сразу триграммы, можно подтягивать второе и третье слово по необходимости (если есть частичное совпадение в trie).

Если trie реализовывать лень, можно заменить их на hash map'ы, но тогда имена из нескольких слов лучше хранить в виде списка, а hash map сделать вложенным (первое слово в hash map'е верхнего уровня указывает на другой hash map, хронящий все возможные вторые слова для указанного первого слова; получается этакое дерево из hash map'ов).

Если считать, что поиск по trie/в hash map'е выполняется за O(1), то весь алгоритм отработает за O(n), где n — количество слов в тексте. При этом не придётся индексировать весь текст, а только структуру для хранения основ имён (индексирование в Lucene/Sphinx, вообще говоря, не самая быстрая операция, а размер индекса около 20-30% от текста, так что не факт, что влезет в память; естественно, я предполагаю, что количество имён меньше размера текста).

Summary:

1. Применить stem() ко всем именам.
2. Сохранить слова в структуру с быстрым поиском (trie/hash map).
3. Токенизировать текст, применить stem() ко всем полученным словам.
4. Пройтись по списку получившихся слов, при этом ища их в структуре с именами.
5. Profit.

Answer 2 · 2012-07-13 12:26:12

Умные слова: словоформа, нормализация, компьютерная лингвистика, стеммер Портера, aot, mystem. Для начала, надеюсь хватит.

И кстати, «хватит извращений, откапывайте стюардессу». Посмотрите на apache solr (сделан на lucene).

Answer 3 · 2012-07-15 07:19:09

winbackgo @winbackgo Автор вопроса

Не совсем мне понятно где в trie место для person_id.

Ответ написан более трёх лет назад

4 комментария

Поиск и выделение слов в тексте (Алгоритм)

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт