Разработчики из подразделения краулинга и индексации (Crawling and Indexing Team)
сообщили о важном эксперименте, который начался совсем недавно. Они осуществили апгрейд краулера и начали испытывать технологию интеллектуальной обработки HTML-форм. После апгрейда робот-краулер должен научиться получать скрытые URL’ы и веб-страницы, которые генерируются в ответ на обработку форм на различных сайтах и которые невозможно получить иным путём.
На практике технология работает так: при встрече с элементом обработчик форм осуществляет ряд пробных запросов. Для текстовых полей в качестве запросов автоматически выбираются слова с этого самого сайта, на котором находится форма. Значения чекбоксов и выпадающих меню берутся непосредственно из кода страницы. После этого программа пытается обработать полученный URL. Если страница действительно содержит некий контент, то её отправляют на индексирование в общий поисковый индекс.
Несмотря на кажущуюся простоту и очевидность, обработка HTML-форм является очень важным шагом по вытаскиванию на свет так называемой «Невидимой Сети» (Deep Web) — огромных массивов информации, которые скрываются в больших базах данных, открытых миру через интерфейсы HTML-форм. Это юридические БД, разнообразные справочники (телефоны, адреса, цены) и прочие массивы данных. По некоторым
оценкам, Невидимая Сеть содержит сотни миллиардов страниц и охватывает 90% всего содержимого интернета. Нужно заметить, что именно там скрывается самый ценный контент, который до сих пор не доступен через стандартные поисковики.
Правда, в любом случае, огромный кусок Невидимой Сети по-прежнему останется за пределами досягаемости Google, потому что краулеру запрещено вводить какие бы то ни было пароли или другую персональную информацию в поля форм: таково решение разработчиков и руководства Google. А ведь очень многие сайты предоставляют открытый доступ к информации только после бесплатной регистрации на сайте. Но с юридической точки зрения робот Google не имеет права создавать фиктивную личность специально для регистрации, потому что это является мошенничеством и противоречит принципам
всегда дружелюбного гуглобота.
Кстати, знающие люди уже
объяснили, откуда растут ноги у новой технологии краулинга. Скорее всего, её создала команда разработчиков из маленькой компании Transformic, которую Google
приобрела в 2005 году. Последние два с половиной года они упорно трудились, совершенствуя свою разработку и помогая интегрировать её в краулер Google.
комментарии (75)
Для примера: действующая форма, скажем, на PHP, получила переменные в $_GET или $_POST - откуда существующий скрипт будет знать, что это не добавлять в базу надо, а гугл перебирает?
In particular, the convention has been established that the GET and
HEAD methods SHOULD NOT have the significance of taking an action
other than retrieval. These methods ought to be considered "safe".
Так что нужно исправлять сайты, если где-то GET используется не по назначению.
PS: Пошел проверять свои, и ведь знал же, а делал, блин, пока гром не грянет...
а для Гугла придётся ставить 'nofollow'.
реферер еще посмотрите, он тоже может помочь понять гугл ;)
User-agent: *
Disallow: /secret_data_bases
Кто мешает Гуглу при поисковой индексации выдавать себя за человека?
Я хотел сказать, что вы не можете наверняка утверждать, что Гугл будет использовать эту же спецификацию при индексации Невидимой сети. Уж слишком высока цена вопроса.
Вообще поиск - обычно алгоритм не самый тривиальный и рессурсоёмкий.
Хотябы форумы, когда начинаются проблемы с производительностью - первым делом отключают поиск.
Вот например, есть список "чего-либо" с постраничной разбивкой: закеширован (не суть важно как или мемкеш, или плайн-текст) и есть еще рядом форма, которая позволяет "фильтровать" этот список так скажите, будет же больше значительно загрузка если:
а) 1 000 человек смотрят просто список и из них 1 00 юзайт фильтр по 1-3 запроса за "сессию"
б) приперся Гугл-паук "и давай" сабмитить в фильтр по 1 000 вариантов запросов и сравнивать результаты "вдруг там есть че новое"...???
А если это взять и увидеть в масштабе многих разделов сайта, а если не одного сайта, а скажем 1 000 000 сайтов?
Все-равно "нагрузка" будет расти и ресурсоемкость повышаться соотв.
Прекрасно понимаю вашу точку зрения на то, что "гугло-бот" не особо и напрягет сайты масштабных проектов, но давайте будем реалистами в мире тонны сайтов которые работают так, как работают и сделаны так, как сделаны!
Я же спорю с вами, что нагрузка будет сумасшедшей и не пытаюсь доказывать, что такие действия Гугла могут быть ужасно опасными, но то, что они добавят много трафика и нагрузок на сервера(сайты, осбенно на вирт. хостингах) и еще не ясно как себя все это поведет это точно.
Спасибо, что пользовались услугами нашего сайта.
http://thedailywtf.com/Articles/The_Spider_of_Doom.aspx
Чтото не ссылки получаются.
За статью - спасибо!
Когда я ваял своего паучка по сбору новостей линков на новости, мне в голову сразу такая мысль пришла, но это было в 2000 году то.
И большой сложности с технической реализацией там особо нет, тем более для такой софтверно-инетовской компании как гугл, которую я кстати очень уважаю. Просто не понятны причины... скорее всего как всегда ошибка отдела маркетинга. На гребне успеха хватало и того что есть... Теперь когда ms хочет купить yahoo начал шевелится отдел маркетинга...:)
Прочитав изложенное, вырисовалась следующая картина: гуглобот сканит "невидимую" сеть. После этого я задаю запрос в поисковике и он дает мне результаты. Проходя по ссылкам которых мне постоянно будет предлагаться зарегистрироваться. Так или нет? Ведь, как написано выше, закрытая формами информация составляет 90% содержимого глобальной сети.