ContentAI_Team Oct 28 2010 at 10:37

Свой Google Search – теперь и по сканам документов

2 min

7.3K

Как сделать документы на серверах компании доступными для полнотекстового поиска и при этом сохранить их конфиденциальными? Как получить функциональность Google Search, ~~не вынося сор из избы~~ оставив документы в пределах сети компании? Корпоративный поиск – еще один быстрорастущий вкусный пирог.

~~Крохотная малоизвестная~~ компания Google предлагает решение в виде красивой желтой коробки для установки в стандартную 19-дюймовую стойку – Google Search Appliance.

Схема следующая:

заключаете договор
cтавите у себя желтую коробку
назначаете ей IP-адрес (доменное имя тоже не повредит)
коробка обходит и индексирует документы в сети
каждый, кто зайдет браузером по тому IP-адресу, видит точно такую же страницу, как на www.google.com, – там можно давать такие же запросы, так же получать результаты
???
СЧАСТЬЕ

Тот же привычный поиск (соответственно, минимум усилий на обучение сотрудников), и документы не покидают сеть компании. Существенное ограничение – файлы изображений в файловых хранилищах (например, сканы документов) для поиска недоступны – GSA не может извлечь из них текст. Хьюстон, у нас проблема.

Как часто бывает в этом корпоративном блоге, на помощь приходит ~~Капитан Очевидность~~ оптическое распознавание текста.

Google Search Appliance умеет не только самостоятельно обходить сайты, но и принимать так называемые фиды (увы, адекватное русскоязычное слово пока не найдено).

Фид – это специальный XML-документ; в него можно включить пару (URL+текст). Фид передается в GSA внешней программой – просто HTTP POST-запрос на соответствующий порт. GSA примет фид, разберет его и запишет в индекс «по вот этому URL лежит документ с вот этим текстом».

Дальше, когда пользователь введет подходящий поисковый запрос, документ (ссылка плюс извлеченный текст с подсвеченными совпадениями) будет выдан в результатах поиска. Тот же Google Search, но текст извлечен и «подложен» внешней программой.

Счастье близко. Для распознавания текста будем как обычно использовать ~~изоленту~~ ABBYY Recognition Server. В его состав входит отдельный сервис, который умеет обходить файловые хранилища, передавать файлы на распознавание в Recognition Server, из результатов распознавания делать фиды и передавать фиды в Google Search Appliance.

Обход хранилищ может выполняться многократно, при этом изменившиеся файлы перераспознаются, для них передаются новые фиды, для удаленных файлов передаются специальные фиды, предписывающие удалить URL файла из индекса. Сервис работает на той же машине, что и Recognition Server.

Механизм фидов позволяет полностью отделить распознавание от самого GSA. Благодаря отличной масштабируемости Recognition Server распознавание может выполняться достаточно быстро даже в случае большого числа документов. Например, если нужно быстро включить в индекс большой архив, можно поставить станции распознавания на машины сотрудников с помощью SMS-установки и настроить продукт так, чтобы станции использовались только по выходным или только ночью.

Естественно, ту же установку Recognition Server можно использовать и для остальных бизнес-процессов организации.

Вот он, еще один сценарий использования Recognition Server – помогать добраться до того быстрорастущего пирога.

Дмитрий Мещеряков
Департамент продуктов для ввода данных

Tags:

Hubs:

Content AI corporate blog

Свой Google Search – теперь и по сканам документов

Articles

Information