войти зарегистрироваться

Поисковые машины и технологииGooglebot начал делать POST-запросы через Ajax

Поисковый краулер Google постоянно улучшается, чтобы получить доступ к относительно закрытым частям сайтов. В 2008 году Googlebot начал сабмиттить GET-формы, а нынешним летом — исполнять JavaScript. Сейчас дошло дело и до передачи данных серверу методом POST.

Веб-мастер сайта thumbtack.com демонстрирует примеры таких запросов в логах Apache за сентябрь-октябрь 2011 года.

Поисковая оптимизацияЯндекс добавил опцию запрета индексации для Метрики

Теперь можно запретить передачу URLов, которые проходят через Метрику.
У меня сложилось ощущение, что сделано это совсем недавно.
Или я ошибаюсь?

Подробнее тут

Блог компании WebasystПочему находится всё: ответ Яндексу от разработчиков Shop-Script

Мы являемся разработчиками скрипта интернет-магазина Shop-Script, который волей-неволей стал замешан во вчерашней истории о том, что Яндекс проиндексировал приватные данные покупателей многих интернет-магазинов. В статье шла речь о магазинах, работающих на основе движка Shop-Script. Я понимаю, что могу получить много гневной критики от тех, кто считает, что вина полностью на разработчике движка, однако, считаю необходимым отразить нашу позицию и постараюсь объективно описать, что произошло, обсудить возможные решения.

Вчера, конечно, было неожиданностью узнать о сложившейся ситуации. Первое, что мы сделали — это проверили, все ли магазины подвержены такой проблеме. Оказалось, что далеко не все. Было преподложение, что проблема может быть в магазинах, которые установили какой-нибудь плагин или сторонний серверный модуль. Но оказалось, что дело и не в этом. Все магазины, у которых страницы с приватными данными клиентов появились в результатах поиска Яндекса, объединяло одно — установленный код Яндекс.Метрики. В точности, как и в недавнем случае с «Мегафоном».

Далее — о том, откуда взялись ссылки на приватные страницы, и как они могли попасть в индекс Яндекса, масштабности проблемы и возможных решениях.

Хостинг Ссылки на домены РФ

Прошу прощения, если для вас это не новость, но для меня стало сюрпризом. Сегодня получил ответ от «Платона» (службы техподдержки Яндекса) на вопрос, почему у одного моего сайта не засчитываются внешние ссылки, когда они есть. Ответ — Яндекс не понимает ссылки вида

<a href="http://мой-замечательный-сайт.рф">мой замечательный сайт</a>

Нужно писать

<a href="http://xn--5--6kefc8eacisehw44fjon5aig7i.xn--p1ai">мой замечательный сайт</a>

Что-то как-то долго наш поисковик номер один реагирует (это, впрочем, точно ни для кого не новость). Боюсь, переходу рунета на русские домены это весьма и весьма мешает.

UPDATE
Только что получил ещё одно письмо от какого-то другого «Платона». Цитирую:
«Приношу свои извинения за некорректный ответ в предыдущем письме. Проблем с индексированием кириллических ссылок доменов в зоне.рф возникать не должно. Мы проверим, по какой причине внешние ссылки не учитываются для Вашего сайта, и сделаем все возможное, чтобы ее устранить.»

Высокая производительностьВидео с пользовательской конференции по Sphinx (~8часов)

Поскольку новость не пробежала на Хабре, но однозначно (с) будет интересна многим:

«Видео с пользовательской конференции по Sphinx (~8часов)
http://devconf.tv/user/sphinx».

Персональные блоги А в вашей фирме проводят индексацию зарплаты?

Проголосовало 414 человек. Воздержалось 136 человек.

ЯндексОбратная связь? Без надобности

Сначала небольшое вступление.

Один из моих личных творческих проектов представляет собой сайт с набором коротких и часто внешне бессюжетных фраз, появившихся как побочные эффекты мыслительной деятельности (бывает так, когда напряжённо думаешь, ещё что-нибудь в голову приходит). Там есть ещё игра слов, услышанные или увиденные где-то смешные словесные конструкции, самодельные афоризмы, выплеск эмоций ну и прочее. Проект явно не для широкой аудитории, но тем, не менее, давний (более 4-х лет) и заботливо поддерживаемый. Работает на стандартном движке и собственноручно написанной теме. Никаких рекламных ссылок там нет, не было и никогда не будет.

И вот, на днях совершенно случайно выяснилось, что сайт перестал индексироваться Яндексом.

Нельзя сказать, что у этого проекта был, есть или предполагается какой-то ощутимый приток посетителей из поисковых систем, но пропажа из индекса удивила.

В ходе переписки со службой поддержки я получила два письма по стандартным шаблонам, которыми они, судя по всему, отвечают владельцам спамовых и мусорных сайтов. Со ссылками на правила (про сео-ссылки, поисковый спам, рекламу, нечестные приёмы, поп-ап баннеры и прочее), которые мною, конечно же, никогда не нарушались.

Персональные блоги Индексация Ajax сайтов

Может кто-нибудь подсказать, каким образом проиндексировался inthecity.ru?
С отключенным javascript он не работает. Он отдает Яндексу, что-то отличное, от того, что получают пользователи?

Кто что вообще делает в таких случаях?

Решение писать сайт так, чтобы он работал с отключенным js только для поисковиков, не айс, но как я понимаю другого решения нет?

Персональные блоги multi_get — качаем сайты оптом

Топик будет интересен тем, кто хочет индексировать Интернет-сайты на предельных скоростях (самодельные поисковики, анализы частоты слов, сервисы по анализу html'я и т.п.) Threading тут не дает предельных скоростей, urllib — тем более… Решение здесь в использовании асинхронных запросов из libcurl.

Скорость?
На 500MHZ (очень-очень слабенький VPS) — около 100 URLов в секунду (100 соединений, 2 процесса).
На Amazon EC2 «High-CPU Medium Instance» (.2$/час) ~ 1200 URLов в секунду (300 соединений, 5 одновременных процессов). В один процесс до 660 URLов в секунду.

Для выкачивания множества сайтов и дальнейшей обработки, хочу поделиться одной своей полезной функцией — multi_get — по сути она — удобный wrapper для CurlMulti (libcurl), модифицированный из их примера CurlMulti.

>>> urls = ['http://google.com/', 'http://statcounter.com/']
>>> res = {}
>>> multi_get(res, urls, num_conn = 30, timeout = 5, percentile = 95)
>>> res['http://google.com/']
'<html><title>Google....
# тут обрабатываем res, который содержит HTML всех для URL'ок

GoogleСайт требует регистрацию? Используйте Google

Это немного сокращенный перевод статьи из блога Google Operating System о том, как работает индексация закрытого контента. Возможно, данная вещь давно известна, тогда считайте эту заметку ненужной.

Некоторые сайты выдают различный контент в зависимости от того, с какой страницы посетитель осуществил переход. Новостные сайты, такие как New York Times, открывают многие статьи только своим подписчикам, но делают исключение, если посетитель перешел со страницы поиска Google и других популярных поисковиков.

У Google есть фича, которая называется first click free для сайтов, требующих подписку. Она разработана для защиты вашего контента и одновременно предоставления возможности индексации. Чтобы реализовать First Click Free, веб-мастер должен позволить всем пользователям, кто нашел вашу страничку через Google, видеть полный текст документа без необходимости регистрации или подписки.

Однако, несмотря на то, что первичный вход на сайт свободный, когда пользователь переходит по внутренним ссылкам, сайт потребует регистрацию. Это особенно неудобно для ресурсов вроде nytimes.com, которые разбивают большую статью на страницы для увеличения числа просмотров.

Обойти это можно очень просто – скопировать ссылку на страницу, к которой у вас нет доступа, в поисковую строку Google и затем перейти по первому результату поиска. Если Google не проиндексировал эту страницу можно использовать SearchWiki для добавления страницы в список результатов поиска: убедитесь, что вы залогинены в свой Google-аккаунт и щелкните «Add a result» внизу страницы с результатами поиска:

image

В комментариях к оригинальной статье указывается более простое решение — использовать расширения RefSpoof или RefControl для Firefox и указывать в качестве реферера www.google.com