Pull to refresh

FAQ по утечке текстов SMS с сайта «Мегафона»

Reading time 3 min
Views 7.3K
Феерическая история, ставшая сегодня самой популярной новостью дня в сети, вызывает немало кривотолков. Даже люди, близкие к веб-технологиям, не всегда адекватно оценивают произошедшее, что уж говорить о прочей сетевой общественности, часть которой уже объявила случившееся вирусной рекламой. Я постараюсь развеять туман теории заговора в форме ответов на задававшиеся в комментариях вопросы.

В: Как вдруг поисковик получил доступ к текстам SMS?
О: Да они всегда были всем доступны, by design. Напомню, что речь идёт об анонимной отправке SMS с сайта. Разумеется, для этого не надо быть абонентом «Мегафона», и не требуется регистрация на портале — в этом прелесть услуги, особенно когда вам дорога каждая секунда. Однако снабдить посетителя минимальными удобствами разработчики не поленились: для каждой попытки отправки генерируется страница со случайным адресом, на которой отображается текст SMS и статус её доставки. Вот её-то и может прочитать кто угодно, включая роботов.

В: Разве нет возможности ограничить доступность этих страниц, не осложняя жизнь пользователей?
О: Разумеется, есть. Вот лишь самые очевидные: привязка к сессионной cookie в браузере, сильное ограничение времени жизни страницы и наконец, robots.txt, запрещающий индексацию этих страниц поисковиками. Файл robots.txt был добавлен лишь в ходе сегодняшнего экстренного латания дыр, что подтверждается официальным ответом «Яндекса». Почему об этом не задумались разработчики? У меня есть теория на этот счёт: раздолбайство :)

В: А почему же Google ничего не видит?
О: Для того, чтобы проиндексировать страницы, надо сначала о них узнать. Как правило, поисковики переходят на новые страницы по ссылкам с уже известных им страниц, каковых в распоряжении Google не оказалось. Впрочем, несколько страниц он всё же проиндексировал, просто на фоне «Яндекса» получилось не столь эффектно.

В: Но как же «Яндекс» их нашёл?
О: Это же «Яндекс», найдётся всё. Наиболее правдоподобная версия: установленный на сайте код «Яндекс.Метрики». Заметая следы В ходе аварийных работ «Мегафон» избавился и от него, но в данный момент в Google ещё доступен кэш от 5 июля, где он присутствует. Адреса всех посещённых на сервисе страниц становились известны «Яндексу» — в этом принцип работы «Метрики». Любопытно, что присутствовал там и код Google Analytics, но поисковики по-разному распорядились получаемой информацией. Я бы не назвал это фэйлом «Мегафона» — имело место нормальное использование хороших инструментов. А для сокрытия непубличных данных, повторюсь, надо использовать robots.txt, привязку сессии к браузеру, авторизацию на сайте и другие методы.

В: А почему так мало сообщений проиндексировано?
О: Для начала напомню, что это лишь сообщения, отправленные с сайта, их оттуда не миллионы посылается, как с телефонов. Теперь кое-что о поисковиках. «Яндекс» никогда не пытается выкачать сайт целиком, если счёт страниц идёт на десятки и сотни тысяч, и если только мы не говорим о высокоцитируемой «Википедии». Страницы скачивались постепенно, выбираясь из переполненной очереди непредсказуемым образом, так что к моменту захода робота они уже и «Мегафоном» могли быть удалены. Какая часть сообщений в итоге попадала на поиск, не ясно, но точно небольшая. Ну а старые страницы просто уходили из индекса при очередных обновлениях кэша — мусор на поиске долго не живёт.

В: А что же сообщения все такие интересные? Где односложные «Ок», «Да», «Нет»? Где «Буду через 5 минут» и «Занят, перезвоню»? Почему мало транслита и много ошибок?
О: И снова есть специфика как сервиса, так и поиска. Сайтом пользуются не на бегу, он как раз для длинных SMS кстати. Отвечать с него тоже неудобно — вопрос-то в телефон пришёл. В транслите нет нужды: не влезло в одно сообщение — пиши второе, халява же. Ну и анонимность провоцирует на многое: часть этих текстов вполне может оказаться дурацкими розыгрышами и подставами. Но даже если шаблонных сообщений будет 99%, «Яндекс» покажет на первых страницах именно 1% «интересных» с его точки зрения. Так уж устроено ранжирование по запросу, ограниченному сайтом, но не содержащему текст. Цитируемость у всех страниц нулевая, поведенческие факторы тоже одинаковые, остаётся только контент: чем больше необычных (экспрессивных, ошибочных) слов, тем выше его уникальность, тем он ценнее. Всё это и сделало из поисковой выдачи филиал «Башорга».

В: Да точно это вирусняк! Не бывает же плохого пиара.
О: Кажется, в маркетинге, как и в футболе, у нас разбираются все :) Процитирую комментарий niketas из ушедшего в черновики топика:
Мне кажется, что ты даже когда застанешь девушку в постели с другим парнем, скажешь «Вот это ты меня разыграла, шутница!» и пойдёшь ставить чай на кухню.
Нанесён непоправимый ущерб репутации оператора, Следственный комитет РФ начал проверку по факту утечки, пострадавшие абоненты, чья переписка стала публичной, собираются подавать в суд с требованием денежной компенсации. Какая же каша должна быть в голове, чтобы увидеть в этом выгоду для «Мегафона»? Новых абонентов таким фэйлом не привлечёшь, а вот старых потерять — запросто, в придачу к потере репутации и денег.

UPD (20.07.2011): Обновил информацию по «Яндекс.Метрике», ибо обнаружились доказательства того, что она стояла на сайте (спасибо w0den). Скопировал из комментариев свой ответ про пиар.
Tags:
Hubs:
+133
Comments 153
Comments Comments 153

Articles