Сегодня я попробую объяснить, как можно просмотреть весь html в заблокированной, для просмотра, странице. Я создал каталог на своем сайте, который называется «test». Внутри каталога создал файлы: "test.txt","index.php",".htaccess".
В файле "test.txt" я записал вот такую информацию:
Вот содержание файла ".htaccess":
Вот страница файла "test.txt", открытого в браузере:
После того как все файлы на сайте были готовы и проверенны, я начал писать скрипт на Python 2.7.9. У меня получилось 2 скрипта. Первый скрипт перебирал ботов и вытаскивал содержимое файла в виде html, а второй узнавал, есть ли такой файл в определённой директории.
Вот скрин первого скрипта:
Вот скрин второго скрипта:
Первым делом мы запускаем второй скрипт, что бы узнать, существует ли файл ".htaccess". Вводим сколько файлов будем проверять, лучше писать на 1 больше, после вводим ссылку сайта для проверки. Вот результат работы:
Мы видим, что файл ".htaccess" существует, так как нам вернули http code [403]. Открываем первый скрипт и вписываем ссылку на файл, который будем открывать ботами. Результат выполненного скрипта:
Вот и всё. Мы прочитали файл "test.txt", который был доступен только для индексации Google.
В файле "test.txt" я записал вот такую информацию:
This is hidden fileВ "index.php":
This is Index file.После этого я начала настраивать ".htaccess" таким образом, что бы файл индексировался только для Google.
Вот содержание файла ".htaccess":
DirectoryIndex index.php
SetEnvIfNoCase User-Agent "^Googlebot" goo
<Files «test.txt»>
Order Deny,Allow
Deny from all
Allow from env=goo
Вот страница файла "test.txt", открытого в браузере:
После того как все файлы на сайте были готовы и проверенны, я начал писать скрипт на Python 2.7.9. У меня получилось 2 скрипта. Первый скрипт перебирал ботов и вытаскивал содержимое файла в виде html, а второй узнавал, есть ли такой файл в определённой директории.
Вот скрин первого скрипта:
Вот скрин второго скрипта:
Первым делом мы запускаем второй скрипт, что бы узнать, существует ли файл ".htaccess". Вводим сколько файлов будем проверять, лучше писать на 1 больше, после вводим ссылку сайта для проверки. Вот результат работы:
Мы видим, что файл ".htaccess" существует, так как нам вернули http code [403]. Открываем первый скрипт и вписываем ссылку на файл, который будем открывать ботами. Результат выполненного скрипта:
Вот и всё. Мы прочитали файл "test.txt", который был доступен только для индексации Google.