Pull to refresh

Просмотр страницы, доступные только для индексации

Сегодня я попробую объяснить, как можно просмотреть весь html в заблокированной, для просмотра, странице. Я создал каталог на своем сайте, который называется «test». Внутри каталога создал файлы: "test.txt","index.php",".htaccess".
В файле "test.txt" я записал вот такую информацию:
This is hidden file
В "index.php":
This is Index file.
После этого я начала настраивать ".htaccess" таким образом, что бы файл индексировался только для Google.

Вот содержание файла ".htaccess":
DirectoryIndex index.php
SetEnvIfNoCase User-Agent "^Googlebot" goo
<Files «test.txt»>
Order Deny,Allow
Deny from all
Allow from env=goo

Вот страница файла "test.txt", открытого в браузере:

image

После того как все файлы на сайте были готовы и проверенны, я начал писать скрипт на Python 2.7.9. У меня получилось 2 скрипта. Первый скрипт перебирал ботов и вытаскивал содержимое файла в виде html, а второй узнавал, есть ли такой файл в определённой директории.

Вот скрин первого скрипта:

image

Вот скрин второго скрипта:

image

Первым делом мы запускаем второй скрипт, что бы узнать, существует ли файл ".htaccess". Вводим сколько файлов будем проверять, лучше писать на 1 больше, после вводим ссылку сайта для проверки. Вот результат работы:

image

Мы видим, что файл ".htaccess" существует, так как нам вернули http code [403]. Открываем первый скрипт и вписываем ссылку на файл, который будем открывать ботами. Результат выполненного скрипта:

image

Вот и всё. Мы прочитали файл "test.txt", который был доступен только для индексации Google.
Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.