войти зарегистрироваться

Интеллектуальная собственностьВласти США обвиняют интернет-активиста в скачивании 4 млн научных статей

Окружной суд штата Массачусетс рассмотрел обвинение против интернет-активиста Аарона Шварца (Aaron Swartz) по нескольким пунктам, включая компьютерное мошенничество и незаконное изъятие информации из защищённого компьютера (обвинительное заключение, PDF). В случае обвинительного приговора ему грозит до 35 лет тюрьмы и $1 млн штрафа.

Что же сделал 24-летний программист, стипендиат-исследователь Гарвардского университета, соавтор спецификации RSS 1.0, известный под ником aaronsw, основатель компании Infogami, купленной Reddit, основатель и бывший исполнительный директор некоммерческой организации Demand Progress (500 тыс. сторонников), которая требует от властей модернизации законодательства в соответствии с развитием информационных технологий?

Поисковые машины и технологииGoogle подключил OCR-движок для индексации PDF

Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF.

И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.

Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.

GoogleGoogle пытается проиндексировать Невидимую Сеть

Разработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL’ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путём.

На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то её отправляют на индексирование в общий поисковый индекс.

Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой «Невидимой Сети» (Deep Web) — огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.