Интеллектуальная собственность → Власти США обвиняют интернет-активиста в скачивании 4 млн научных статей
Окружной суд штата Массачусетс рассмотрел обвинение против интернет-активиста Аарона Шварца (Aaron Swartz) по нескольким пунктам, включая компьютерное мошенничество и незаконное изъятие информации из защищённого компьютера (обвинительное заключение, PDF). В случае обвинительного приговора ему грозит до 35 лет тюрьмы и $1 млн штрафа.
Что же сделал 24-летний программист, стипендиат-исследователь Гарвардского университета, соавтор спецификации RSS 1.0, известный под ником aaronsw, основатель компании Infogami, купленной Reddit, основатель и бывший исполнительный директор некоммерческой организации Demand Progress (500 тыс. сторонников), которая требует от властей модернизации законодательства в соответствии с развитием информационных технологий?
Что же сделал 24-летний программист, стипендиат-исследователь Гарвардского университета, соавтор спецификации RSS 1.0, известный под ником aaronsw, основатель компании Infogami, купленной Reddit, основатель и бывший исполнительный директор некоммерческой организации Demand Progress (500 тыс. сторонников), которая требует от властей модернизации законодательства в соответствии с развитием информационных технологий?
Поисковые машины и технологии → Google подключил OCR-движок для индексации PDF
Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF.
И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.
Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.
И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка.
Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети.
Google → Google пытается проиндексировать Невидимую Сеть
Разработчики из подразделения краулинга и индексации (Crawling and Indexing Team) сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL’ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путём.
На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то её отправляют на индексирование в общий поисковый индекс.
Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой «Невидимой Сети» (Deep Web) — огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.
На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то её отправляют на индексирование в общий поисковый индекс.
Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой «Невидимой Сети» (Deep Web) — огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.