Pull to refresh

Битые ссылки — некоторая статистика

Reading time 3 min
Views 3.6K
Увидев сегодня топик Д'Артаньян и интернет, или работа над проблемой битых ссылок, решил поделиться с вами кое-какой статистикой, собранной при написании моей магистерской диссертации.

В моем дипломе одной из задач было поставлено решение проблемы битых ссылок на отдельно взятом ресурсе. Для того, чтобы показать актуальность проблемы, я скачал дамп базы данных Wikipedia и программой проверил работоспособность 700 тысяч внешних ссылок в статьях.

Оказалось, что 20% ссылок являются нерабочими!



Исследование



Ссылка считалась неработоспособной в следующих случаях:
○ Удаление домена из DNS.
○ Отказ при соединении по HTTP.
○ Получение кода ответа HTTP 4xx или 5xx — в основном это удаление страницы (404), запрет доступа (403), ошибка сервера (500).
○ Перенаправление с внутренней страницы на главную.
○ Бесконечное перенаправление HTTP 3хх.

Также отслеживалась подмена содержимого страницы на другое и программные ошибки PHP, ASP, etc, но в статистику эти данные не вошли.

База данных была получена в августе 2009 г.
Потом произведено 3 проверки:
● октябрь 2009 — 20,7% ссылок являются битыми
● ноябрь 2009 — 22,4%
● апрель 2010 — 23,8%

Можно отметить постепенный рост числа битых ссылок. При этом восстановили свою работу только 4% из неработавших ранее. Т.е. в подавляющем большинстве случаев отказ является необратимым.

На рисунке ниже приведена статистика по причинам неработоспобности ссылок:


Аналогичная проверка каталога ссылок на внешние сайты федерального образовательного портала www.edu.ru выявила похожую картину — 24,5% ссылок не работают.

Конечно, такое исследование не является серьезным и научным, а полученные результаты не являются очень точными. Возможно проверяемые ссылки относились к старым версиям статей, отследить это я не смог. Но очевидно, что проблема битых ссылок существует. Еще некоторые цифры:

По данным DomainTools количество доменных имен сайтов, прекративших своё существование, только за один день составляет порядка 100000, а в целом их сумма превышает число действующих в 3 с лишним раза (для зон .com, .org, .net, .info, .biz и .us)
Archive.org утверждает, что средняя продолжительность жизни веб-страницы лежит в пределах 44-75 дней.

Что делать


Если необходимо обеспечить безотказную работу внешних ссылок, можно воспользоваться одним из следующих способов:

1. Периодическое автоматическое тестирование и скрытие/удаление нерабочих ссылок.
Такой подход применим в тех случаях, когда работоспособность ссылок не является критичной или нужно просто дать ссылку на весь сайт. Существуют готовые программы, реализующие этот принцип: PHP Spider, ht://Check, VEinS и др.

2. Сохранение копии ресурса на своем сервере и выдача ссылки на нее.
Такой подход предпочтительнее первого, если важно обеспечить доступ пользователей к ресурсу в течение неограниченного времени. Также исключается возможность замены содержания страницы другим. При этом возникает проблема соблюдения авторских прав на сохраняемые копии.
Этот способ скорее годится для ссылки на конкретную страницу/документ, т.к. сохранить копию всего сайта достаточно трудно.
В качестве примера сервиса, использующего этот принцип, можно назвать Peeep.us. Также с 1996 г. функционирует сервис The Wayback Machine электронной библиотеки Internet Archive, который периодически собирает копии веб-страниц в Интернете, находящихся в открытом доступе.

3. Комбинация способов 1 и 2 — предоставление ссылки на оригинальный ресурс, а в случае утраты ею работоспособности или изменения — на сохраненную копию.

4. URN, PURL — как ими реально можно воспользоваться не очень ясно.
Tags:
Hubs:
+33
Comments 21
Comments Comments 21

Articles