alizar May 20 2011 at 16:56

Google отказался от оцифровки газет

2 min

1.2K

Вчера компания Google разослала в адрес издательских домов письмо, в котором сообщает о прекращении проекта News Archive по сканированию и индексации микрофильмов и других архивных материалов газет. Вместо этого Google сконцентрирует свои усилия на «более новых проектах, которые помогают газетной индустрии, в том числе на развитии платформы Google One Pass, которая позволяет издателям продавать контент напрямую со своих сайтов».

Пятилетний проект News Archive был амбициозной попыткой сделать для старых газет такой же архив, какой существует для книг на Google Books, эдакая всемирная библиотека. Вроде идея была хорошая: сканирование плёнок осуществлялось за счёт Google, а прибыль от показа рекламы на страницах сервиса партнёры делили между собой.

Сервис является дополнением для обычного поиска по новостям, где доступный архив ограничен всего 30 днями. В архиве никаких ограничений нет. Там гораздо меньше источников информации, но самые ранние сообщения датируются серединой XVIII в. Поисковая выдача по каждому запросу отсортирована по годам и по источникам информации. Можно посмотреть также частоту упоминаемости различных слов с разбивкой по годам и десятилетиям. Большинство текстов доступны бесплатно.

За пять лет Google уже отсканировал 60 млн газетных страниц, покрывающих 250 лет истории. В письме партнёрам Google сообщил, что продолжит предоставлять доступ к уже созданному архиву, но сайт не будет обновляться и для него не будет разрабатываться новый функционал.

Более того, газеты теперь могут бесплатно забрать весь отсканированный контент и разместить у себя на сайте (раньше эта услуга была платной).

Сложно сказать, по каким причинам Google решил отказаться от продолжения проекта. Возможно, возникли какие-то проблемы/риски по вопросу авторских прав. Или Google просто посчитал относительно низкой ценность новой информации, мол, архив и так уже достаточно полный, а возиться с мелкими региональными газетёнками только себе в убыток.

Ещё вероятная версия — техническая сложность и дороговизна обработки. Google публиковал архивы в виде графических изображений с возможностью полнотекстового поиска. Распознавать текст в газетах гораздо сложнее, чем в книгах, из-за специфического форматирования и переносов (статьи часто переносятся с одной полосы на другую, причём на случайную полосу и на случайное место). Здесь никак не обойтись без внимательного человеческого надзора.

Возможно также, что посещаемость проекта News Archive была низкой и реклама даже близко не окупала затрат на оцифровку газет.

Непонятно также, добавит ли Google в индекс те плёнки, которые отсканировал за последние месяцы. Дело в том, что издатели сообщали, что плёнки быстро сканируются и возвращаются, но очень долго добавляются в индекс, так что сейчас в «стеке» накопилось большое количество отсканированной, но не обработанной информации.

Tags:

Hubs:

IT-companies