Компания
697,46
рейтинг
21 июля 2014 в 17:00

Разработка → Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения

На серверах Яндекса хранится много нужной и важной для людей информации, поэтому нам необходимо надёжно защищать данные наших пользователей. В этой статье мы хотим рассказать вам о наших исследованиях, в которых мы изучаем, как отличить владельца аккаунта от злоумышленника. Причем даже тогда, когда оба имеют логин и пароль от учетной записи. Мы разработали метод, который основан на анализе поведенческих характеристик пользователей. Он использует машинное обучение и позволяет отличать поведение настоящего владельца аккаунта от злоумышленника по ряду характеристик.



Такой анализ базируется на математической статистике и изучении данных об использовании сервисов Яндекса. Поведенческих характеристик недостаточно, чтобы однозначно идентифицировать пользователя и заменить тем самым использование пароля, но это позволяет определить взлом уже после авторизации. Таким образом, украденный пароль от почты не даст прикидываться её настоящим владельцем. Это по-настоящему важный шаг, который позволит по-другому взглянуть на системы безопасности в интернете и решить такие сложные задачи, как определение настоящего владельца аккаунта, а также момента и характера взлома.

Принято полагать, что способы распознавания человека появились относительно недавно, но на самом деле история различных методов идентификации уходит своими корнями в Средние века. Известно, что в древнем Китае на рубеже 14-15 веков уже догадались использовать отпечатки пальцев. Правда, применяли этот метод ограниченно — купцы таким образом подписывали торговые соглашения. В конце 19 века уникальность папиллярных линий легла в основу дактилоскопии, основоположником которой стал Уильям Гершель. Именно он выдвинул теорию о том, что рисунок ладонных поверхностей человека не меняется в течение всей его жизни.


Дактилоскопическая карта Гершеля

С развитием информационных технологий появились различные системы распознавания пользователя. В большинстве своем эти методы созданы, чтобы человек мог контролировать доступ в какую-то систему, но на самом деле область идентификации и аутентификации пользователей значительно шире.

Ученые всего мира бьются над проблемой идентификации людей по различным признакам. Есть разные модели и теории: от самых популярных, где для распознавания используются уже упомянутые отпечатки пальце, радужная оболочка глаз, голос, до новых и спорных, в которых учитываются движения мышки, клавиатурный «почерк» и поведение на сайте. Яндекс тоже активно занимается изучением существующих моделей и созданием новых. Мы находимся в самом начале пути, но уже достигли некоторых успехов, поэтому хотим вам немного рассказать о наших экспериментах.

Над алгоритмами защиты ящиков от взлома, спама и вредоносной деятельности, которая может нанести ущерб пользователю, мы работаем постоянно. Те методы контроля доступа, которые уже существуют, затрудняют злоумышленникам проникновение в почтовый ящик, но, увы, не решают проблему взлома полностью. Узким местом остается использование пароля, который может быть потерян, украден, перехвачен или подобран. Например, перехват пароля может произойти, если вы используете пароль от Яндекса на других сервисах, где не поддерживается безопасное соединение.

Мы задумались: «А возможно ли отличить взломщика от настоящего владельца аккаунта, если оба авторизуются одним и тем же паролем?» Оказалось, что да. Наши исследования показали, что поведение владельца почтового ящика всегда отличается от того, как ведет себя взломщик.

Вообще из поведения пользователя в почте можно выделить ряд характеристик: время входа, обычное месторасположение, количество авторизаций, используемых устройств и др. Есть операции, которые не характерны для конкретного человека. Например, удаление прочитанных писем, стирание папок, отправка рассылок. У человека может сложиться определенное поведение при работе с разными типами писем: прочтение писем от людей, удаление рассылок, игнорирование писем из социальных сетей. Кроме того, существуют и такие привычки как «читает цепочку непрочитанных писем снизу вверх», «авторизуется и идет сначала в Почту, потом — в Диск и уже следом — в Новости» и так далее. Такие паттерны поведения могут быть вычислены для многих наших сервисов. Из совокупности этих факторов и складывается профиль пользователя, который не дает полного представления о самом пользователе, но позволяет отличить факт взлома аккаунта от нормальной авторизации. Конечно, этот подход не может быть эффективным без использования машинного обучения. С его помощью определяется набор факторов, которые влияют на профиль, и границы для определения взлома.

Суть этого метода очень проста: каждый имеет привычки, свойственные только ему, начиная с режима работы и отдыха, продолжая местами, в которых человек бывает, и количеством устройств, которыми он пользуется. Например, кто-то всегда проверяет почту из дома и работы, использует два устройства, никогда не удаляет прочитанные письма и не рассылает спам. Он использует почту в дневные часы и никогда не проверяет почту ночью. А кто-то в течение месяца часто бывает в командировках и периодически читает почту из разных стран. У этих пользователей будут различные паттерны поведения, на основе которых можно построить индивидуальный профиль и сравнивать с ним каждый новый заход в почту.



Вот так выглядят профили двух разных людей. На красном графике показан профиль обычного не взломанного пользователя. Видно, что всё достаточно равномерно, и при этом нет резких скачков параметров. Синий график иллюстрирует поведение подозрительного аккаунта: все показатели сильно скачут, прослеживается хаотичное обращение к ресурсу. Это дает возможность предположить факт несанкционированного доступа.



А на этом графике изображено изменение профиля в момент взлома. В синей области видно, что показатели находятся в норме, в то время как в красной зоне уже прослеживаются значительные колебания. Кроме того, отчетливо видны даты, в которые это произошло, что может значительно упростить поиск места взлома.

Такой подход может обезопасить пользователей от кражи паролей и сессионных кук и позволит детектировать взлом даже после авторизации в аккаунте.

Мы пока не готовы говорить о запуске полностью работающей системы определения взлома. Еще не все детали пазла собраны — потребуется время, чтобы в полной мере оценить и научиться использовать преимущества данных технологий. Но их эффективность очевидна уже сейчас: использование машинного обучения в системах защиты информации способно сильно повысить безопасность хранимых данных. Так что мы продолжим работу в этом направлении.
Автор: @eandreeva
Яндекс
рейтинг 697,46

Комментарии (120)

  • +17
    Как человек будет доказывать, что он не взломщик, когда его забанят за «нетипичную активность»?
    • +1
      Идентификация по номеру телефона, одноразовые пароли?
      • –1
        Верно
    • +2
      Да вы что, такого не может быть потому что быть не может совсем :)

      Как показывает практика — вернуть аккаунты даже на таких крупных сайтах как google/gmail и paypal иногда почти не реально после блокировки.
      • 0
        Вы преувеличиваете.
        Вернуть аккаунт несложная задача, если, конечно, вы заранее подумали о безопасности. Например, привязали телефон.
        • +14
          Или отключили лишние проверки подозрительной активности галочкой в настройках.
    • 0
      Параллельно с системой обнаружения подозрительной активности разрабатываются и средства восстановления доступа, разумеется. Самое простое (и для пользователя и по эффективности), как уже написали — привязанный заранее телефон. Но если помимо этого при регистрации добросовестно заполняется анкета в Яндекс.Паспорте, это тоже увеличивает шансы. Конечно, это не все способы, а лишь наиболее действенные.
    • –2
      А почему Вы решили, что его забанят?
      • +5
        Если эта система при каких-то обстоятельствах запрещает знающему пароль осуществлять управление аккаунтом, то это и называется «забанили». А вот всякие «ля-ля» на тему «мы вам смску на телефон» — это уже от бессилия. Модель безопасности простая — знаешь пароль, проходи. Всякие условия — это прямой путь к DoS того или иного вида.
        • –2
          Забанили — это когда не пускают совсем. Ни слова об этом в посте нет. Есть масса других способов показать, что взломали, и сподвигнуть пользователя это исправить. Или ограничить только часть возможностей. Конечно, если есть усугубляющие факторы, например, рассылка явного спама, тут надо действовать немного жёстче. Но вариантов решения возникшей ситуации масса, которые будут зависеть от того, какие именно действия были сочтены нехарактерными, насколько они отличаются от обычного, а также какой вред они наносят Яндексу, пользователю и т.д.
          • +3
            Спасибо. То есть если кто-то решит свалить с яндекса и почистить свой ящик, ибо гэбня, бешенный принтер и всё такое, то Яндекс его забанит… ограничит часть возможностей.

            У Кори Доктороу было довольно хорошо и зло описано, какие неприятные последствия возникают из-за того, что компьютеры начинают возбуждаться на «нетипичное» поведение людей.

            Основная проблема состоит в том, что теперь любое необычное поведение сопровождается риском, что тебя забанят… ограничат в возможностях. Поменял почтовый клиент с веб-морды на imap? Лови бан… ограничение в возможностях. Поставил фетчмейл собирать почту (работает круглосуточно и из другой страны) — лови бан… ограничение в возможностях.

            Приятная перспектива. Примерно как с банком, который банит… ограничивает в возможностях пользоваться кредиткой, если, вдруг, воткнул её зарубежом в банкомат страны, которую банк считает «плохой по скорингу».
            • 0
              Вы преувеличиваете. Для подтверждения нетипичного поведения недостаточно просто сменить клиент, и графики, приведённые в посте, это иллюстрируют.
            • 0
              И про банк некорректное сравнение. У банковской карты всего одна функция (если не вспоминать, что её часто используют как линейку и прочие не причастные к банку функции) — платить. И у банка очень ограниченный выбор в действиях: либо запретить платить, либо не запретить. У Яндекса набор функций хотя бы даже в одной только почте в разы больше, поэтому есть из чего выбирать, и какой спектр возможностей и насколько сильно тормозить. Опять же, Яндекс может не совсем запрещать, а, например, делать проблематичным использование этой возможности роботным путём: показывать капчу хотя бы.
              • 0
                капча, к сожалению, не спасёт от Васи, узнавшего пароль на почту девушки, в которая внезапно оказалась её переписка с любовником.

                А для некоторых людей с ограниченными возможностями зрения, капча и в нормальных условиях использования — большая проблема, к сожалению.
                • 0
                  Разумеется, идеал недостижим, и всегда приходится балансировать меж добром и злом :) А для людей со слабым зрением существует аудиокапча. Но ведь людям со слабым зрением достаточно будет поменять пароль и провериться на вирусы, чтобы капча больше не показывалась :)
                  • 0
                    Ум. а кто из капче-систем умеет аудиокапчу, кстати?
                    и да, кроме плохого зрения есть, например трудное распознавание цветов, как у меня.
                    И да, в половине вариантов когда я звал «на помощь», ВСЕ сидевшие рядом сотрудники с хорошим зрением коллективным разумом не угадывали тот бред, который предлагалось расшифровать на картинке.
                    Recaptchа в этом плане неплоха, кстати.
                    • 0
                      кто из капче-систем умеет аудиокапчу
                      Яндекс, например? yadi.sk/d/COEXPZV4XGU3p
                      кроме плохого зрения есть, например трудное распознавание цветов
                      спрашивается, причём тут капча?)
                      в половине вариантов когда я звал «на помощь», ВСЕ сидевшие рядом сотрудники с хорошим зрением коллективным разумом не угадывали тот бред
                      речь о капче от Яндекса? Её, кстати, можно на любой сайт ставить api.yandex.ru/cleanweb/doc/dg/concepts/get-captcha.xml
        • +3
          Модель безопасности простая — знаешь пароль, проходи.

          Золотые слова!
          А о том, что взломали, должен сам пользователь сообщать в поддержку (например, если пароль сменили) или запросить смс на телефон, так как это его проблемы. А вот поддержка должна уже по-людски с ним работать, выяснить, реальный ли это владелец аккаунта, и всё в этом духе.
          • –3
            90% пользователей даже не знают, что их взломали, потому что взломщики в последнее время не проявляют себя для юзера, а тихонько гадят с его аккаунта: рассылают спам, делают всякие роботные поисковые запросы, нагружающие систему и т.п.
  • +12
    Напьюсь, в Яндекс ни ногой.
    • 0
      Почему?
      • +14
        Очевидно, потому что будет нецензурно хаотично обращаться к ресурсу.
        • –7
          Что бы это значило…
          Не объясните?
          • +11
            Профиль поведения одного пользователя в трезвом и пьяном состоянии может сильно отличаться. Настолько сильно, что протрезвев на утро можно обнаружить что аккаунт заблокировали.

            К.О.
            • –13
              Крайне рекомендую перечитать статью.
              • +7
                Перечитал. Не помогло. Заканчивайте многозначительно намекать и поясните открытым текстом, почему с Вашей точки зрения эта система не среагирует на пьяное поведение. Можно цитатами из статьи, которые Вы имели в виду рекомендуя перечитать.

                Единственное предположение, которое у меня есть — если система реагирует на основании многодневного анализа поведения — тогда да, разовая пьянка никак не повлияет. Но во-первых есть много людей, у которых пьянки явление вполне регулярное, а не разовое, а во-вторых нафига нужна система, которая детектит взлом аккаунта через две недели после взлома?! За этот срок обычный пользователь нередко и сам обнаружит взлом.
                • –6
                  Я понимаю, что вы перед собой ставите цель потроллить, поэтому не пытаетесь понять.
                  Но я все-таки продолжу.
                  Если «пьянки» (хотя я честно не понимаю, что вы тут имеете ввиду) случаются регулярно, то это уже становится частью профиля человека.
                  Если же «пьянка» случилась один раз, она скорее всего не повлияет на профиль в целом…
                  Скажите, какая должна быть, как вы выражаетесь, «пьянка», чтобы человек за один час зашел с двух разных точек земного шара (напомню, раньше за ним этого не наблюдалось). Замечу, это самый простой и очевидный пример.
                  • +6
                    Скажите, какая должна быть, как вы выражаетесь, «пьянка», чтобы человек за один час зашел с двух разных точек земного шара (напомню, раньше за ним этого не наблюдалось).

                    За одну минуту с пяти можно. И без пьянок. Поставил прокси-расширение в браузер, и испытываю его, как скорость и всё остальное с разных точек. При том почта/диск/возможно деньги потыкаю.
                    И да, раньше такого не наблюдалось за мной, только узнал про такие вещи.

                    Что в этом случае скажет система?
                    • –3
                      Если бы я был той самой системой, я бы заблокировал Вас.
                      В виду того, что это абсолютно нестандартное поведение, выходящее за рамка «нормального» использования ящика. В своем рабочем ящике вы работаете иначе.
                      Согласитесь, вы говорите о синтетической ситуации, внешние признаки которой ничуть не отличаются от ботнета. И в таких случаях лучше ограничить доступ.
                      «Спасти» от блокировки может только аккумулятивный эффект других счетчиков, которые будут «вопить», о том, что все остальные показатели этого захода в норме.

                      Ну а все-таки давайте вернемся к вопросу о «пьянках», на которых вы так настаивали.
                      В случае этого события ничего аномального у пользователя не случится, потому что мы говорим о совокупности признаков, описывающих профиль пользователя, а не о бинарных результатах работы алкотестера.
                      И статья как раз о собирательном профиле.
                      • 0
                        Например, я когда выпью хаотично чаще чем обычно покупаю музыку в iTunes. Система вполне могла бы это детектить как подозрительную активность и блокировать. Устроит вас такой пример?
                        • –1
                          Пример устраивает.
                          Ну это значит, что у вас в профиле есть две модели поведение.
                          «Будни» и «выходной день», это значит что оба этих поведения для вас «нормальны» с любой точки зрения и ни один из перечисленных даже в статье факторов при этом не «зазвенит».
                  • +2
                    Скажите, какая должна быть, как вы выражаетесь, «пьянка», чтобы человек за один час зашел с двух разных точек земного шара (напомню, раньше за ним этого не наблюдалось).

                    Это даже без пьянки легко организовывается, называется «улетел на отдых, а потом кому-то срочно потребовался доступ к документам в ящике, поэтому предоставил логин и пароль».

                    Собственно на слуху куда больше примеров ложных срабатываний подобных поведенченских систем анализа и защиты, чем реальных (а не сферическо-вакуумных теоретических) примеров их успешной защиты кого-либо, взять теже банки например с их блокировкой карты после «заправки полного бака и покупки пары кросовок» ;). Ну или более близкий пример: полетел человек заграницу и получил блокировку карточки, мол «а чо вы нас не придупридили заранее?» — удобство, что тут скажешь.
                    • –4
                      Это даже без пьянки легко организовывается, называется «улетел на отдых, а потом кому-то срочно потребовался доступ к документам в ящике, поэтому предоставил логин и пароль».

                      Вы описали типичный взлом.
                      В таких случаях блокировка обязательна. Если вы захотите — вы доступ дадите, ну или просто перешлете необходимые документы.

                      С банками пример хороший. Действительно, есть риск ложных срабатываний. Я себе в Гонконге часы благодаря этому не купил ))

                      Но есть и обратные случаи — неблокировка вашей карты в случае одновременного снятия денег и из России и из Тайланда например.

                      Выбирая из двух зол вы какое бы выбрали?

                      Думаю, что не ошибусь, если отвечу за вас «первое».
                      А раз так, то мы с вами сходимся в необходимости наличия такой защиты.
                      Дальше все зависит от тонкости настройки этого алгоритма.

                      • 0
                        Ошибетесь. Предоставление сервиса нелегитимному пользователю так же плохо как и непредоставление его легитимному. Невовремя заблокировать карточку вип-клиента и банк потерял этого вип-клиента.
                        В банках при «подозрении» на мошенническую операцию связываются с клиентом и уточняют он ли делал этот платеж. И только потом блокируют. Разумеется разные паттерны поведения имеют свою величину «критических баллов». Если баллов много, то это точно-точно мошеннический платеж. Если ни то ни сё, то надо связаться с клиентом прежде чем делать поспешные выводы. Это как раз все укладывается в термин «обучение» искусственного интеллекта. Уверен, что вы сможете отточить свою систему и она не раз поможет предотвратить потерю данных.
                        • –2
                          Я если связаться с клиентом не удаётся?
                          • 0
                            Действуют, как если бы клиент не подтвердил операцию.

                            PS надеюсь, что все понимают — я сейчас не говорю, что все-все банки действуют только так и ни как иначе. В разных банках может быть разный регламент поведения операциониста, разные обязанности. Они могут меняться с течением времени. Какие-то банки могут мониторить лишь определенные платежи и так далее…
                            • 0
                              Действуют, как если бы клиент не подтвердил операцию.

                              То есть не подтверждают транзакцию :) Запрещают использование денег и услуг, иначе говоря.
            • 0
              Ну так и отлично же. Еще бы для телефона подобная штука появилась.
            • –2
              Интересно, откуда К.О. вообще взял слова о блокировке? В статье ничего про это не говорится. Рассказывается только, что обкатывается умная система обнаружения взломов. Про то, какая на этот факт будет реакция и какими способами будут оповещать владельца, ни слова, ведь система ещё не идеальна.

              Но наш человек сразу подумал, чо его заблокируют. Тенденции современного интернета.
              • +2
                Ладно, давайте пофантазируем на тему: система обнаружения взлома … обнаружила взлом! Что делать?

                Вариант «ничего» отметаем сразу — иначе зачем вообще было разрабатывать эту систему?

                Вариант «связаться с владельцем аккаунта» — всё сложно. Во-первых никаких данных о владельце кроме этого взломанного аккаунта зачастую просто нет — далеко не все любят давать свой телефон по первой просьбе разным сайтам (да, представьте себе, Яндекс — это не пуп земли и центр рунета, а просто ещё один сайт — по крайней мере когда речь идёт о предоставлении своих персональных данных). Во-вторых нередко первое, что делает взломщик — меняет всю аутентификационную информацию (пароль, секретные вопросы/ответы, номер телефона)… и на какой номер звонить чтобы сообщить о взломе? Иногда у аккаунта указаны другие почтовые ящики, но нет гарантий что их кто-то читает и что они тоже не взломаны.

                Вариант «заблокировать доступ» (причём чем раньше, тем лучше — чтобы минимизировать ущерб от взлома) с Вашей точки зрения не является самым напрашивающимся… значит, вероятно, у Вас на примете есть какие-то более адекватные альтернативы. Хотелось бы о них услышать.
                • –3
                  1) Можно показать сообщение в интерфейсе, которое закрывается только с введением каких-то особенных даных;
                  2) послать пользователю письмо;
                  3) можно ограничить только некоторые действия, именно те, что считаются подозрительными.
                  Если же взломщик меняет всю аутентификационную информацию, при этом Яндекс считает, что аккаунт взломан, тут уже я всё же склонюсь к необходимости блокировки, но и в этом случае будет зависеть от нюансов поведения. Ведь учитываются не только авторизации, но и множество других факторов.

                  Из всех этих вариантов К.О. выбрал только блокировку. То есть Яндекс тратит тучу средств на разработку и обкатку сложной системы выявления взломов, которую потом ещё долгое время обкатывает, а в результате всё сведётся к тупой блокировке? Ну зачем так обижать Яндекс? :)

                  • +3
                    1) Если это сообщение не даёт работать — это и есть блокировка аккаунта. А если не мешает работать — то по сути оно просто проинформирует взломщика о том, что он спалился и пора заметать следы.
                    2) Куда? В этот же взломанный ящик? Чтобы его получил (и удалил) взломщик? Или на другие email-ы этого юзера, которые, как я уже упоминал, во-первых могут отсутствовать и во-вторых могут не использоваться уже несколько лет?
                    3) Интересно, чтение почты считается подозрительным? А отправка писем? Вы о чём вообще?
                    • –2
                      1) Как взломщик заметёт следы, если убрать сообщение можно будет, допустим, только каким-нибудь специальным способом, доступным только владельцу аккаунта?
                      2) А может, удалять письма как раз будет нельзя?
                      3) Если именно отправка писем была сочтена подозрительной, то её могут блокировать. Например, внезапно обнаружена рассылка «махрового» спама, с нехарактерных IP. Почему бы не ограничить возможность отправлять письма характерным IP, сопроводив всё это каким-то предупреждением, капчёй и т.п.?

                      Вариантов помимо блокировки — масса. Корабли в космос летают, а у нас люди чуть что — «заблокировать» :) А как же нано-технологии и интеллектуальные системы? ;)
                • 0
                  … Да ладно, что значит — «и на какой номер звонить?» Неужели Яндекс не хранит историю изменений этой самой информации?

                  Подразумевая «конечно, хранит, и не только — этой информации», очевидным вижу ответ «на номер, актуальный, на момент, когда система обнаружения взлома была уверена, что взлома не было»…
  • +3
    А что за шкала по оси ординат? Количество обращений к ресурсу? Или это какая-то абстракция?
    И почему бывают отрицательные значения?
    • +1
      Подозрительность )
      >И почему бывают отрицательные значения?
      Excel так по точкам интерполирует.
    • 0
      Ось ординт показывает изменение значений факторов профиля.
      • +9
        Я думаю тут многим было бы интересно узнать о методах вычисления этих «попугаев».
        • 0
          Именно. Пока, читая комментарии, понял что в факторы входят:
          • IP адреса
          • Обращение к старым (архивным письмам)

          Плюс, смею предположить, туда еще входит такой параметр, как «последовательное выкачивание писем». Ну, надеюсь, вы поняли что я имею ввиду.
          Интересно, что же ещё кроется внутри этих самых «факторов»?
          • 0
            Вы с какой целью интересуетесь? :) Разве же можно рассказывать все секреты того, на какие критерии смотрит система защиты? Это же в несколько раз снизит её эффективность.
            • 0
              Мне интересна технология, может, там есть какие-нибудь новые знания для меня, которые я также в дальнейшем смогу применить. А скрывая алгоритмы механизма защиты безопасность не увеличишь, ну разве что на время.
  • +3
    По моему это очередное китайское предупреждение — связать свой номер телефона со своим же профилем. Лично мне этого не нужно, пусть блокируют
  • 0
    Еще одна идея: смотреть на частоту обращения к письмам в зависимости от их давности. Если взломщик получил доступ к ящику — возможно, он будет рыться в нем в поисках чего-то интересного.
    • 0
      В правильном направлении мыслите )
      • +3
        Главное не перестараться, а то я сам бывает ищу регистрационные данные на давно забытый форум в глубине почты. Не очень будет прикольно, если посреди всего мне придется что-то подтверждать с телефоном
        • 0
          ну, целенаправленный поиск и последовательное выкачивание — немного отличаются же. Правда, последовательное выкачивание тоже может быть вполне осмысленным действием законного владельца.
  • +1
    Если рассматривать не одного пользователя, а всю систему целиком, то через поведенческие характеристики можно отлавливать ботнеты и спамеров.
    • +6
      Да, в этом и есть главная идея этой системы. Проводя эксперименты на большом количестве аккаунтов, мы заметили скачки поведенческих характеристик пользователей. Но, отсекая набором грубых факторов (на наш взгляд) взломанных пользователей, мы рискуем ошибиться и доставить неудобства настоящим владельцам аккаунтов. Мы очень не хотим, чтобы наша системы несколько раз просила пользователя подтвердить себя, если он заходит в свой аккаунт из другой страны. Поэтому мы строим индивидуальные профили, используем большой набор факторов и машинное обучение.
  • –1
    Изучение поведенческих алгоритмов, психологический портрет… На приеме у психолога чтоли? Было бы разумно отдать на откуп решение таких вещей тем, кого яндекс собирается защищать — хочет человек, юзает вариант, описанный в статье, хочет — «простая» аутентификация без наворотов.
    • 0
      А вот представьте такой вариант: я хочу в полной мере пользоваться продуктом яндекса. Этот продукт в первую очередь нацелен на защиту от бот-сетей и спама. Я не хочу получать спам. Но он отправляется с чьего-то ящика. А этот «кто-то» не хочет использовать продукт яндекса.
      Коллапс?
  • +1
    Следующим шагом может быть внедрение поведенческого анализа в алгоритмы ботов и руткитов. Люди-шпионы ведь, получив вожделенный доступ, не стараются сразу все слить на родину, загружая эфир на 100% (если, конечно, не хотят, чтобы их тут же раскрыли), а ведут себя хладнокровно, как Штирлиц. И в итоге, побеждают в долгосрочной перспективе ). Также и боты — можно, получив доступ к ресурсам жертвы, некоторое время пособирать статистику, а потом уже потихоньку мимикрировать. Редких действий, подобных человеческим, точно никто не заметит, так как они не выйдут за пределы статшума
    • 0
      Следующим шагом должна стать идентификация злоумышленников по поведенческим портретам в Интернете.
    • 0
      Но на начальной стадии заходы бота чаще всего будут нетипичными, и их распознают :)
  • +9
    Оставить заявку о смене своих привычек вы можете на сайте…
  • –9
    Зачем заниматься не своим делом?
    В результате работы функции пострадает больше легальных пользователей, чем взломщиков.
    У знакомых небольшая фирма и один рабочий ящик на всех :)
    К счастью, не на яндексе.
    Плюсов от специалистов по защите информации Яндекс не получит тоже.
    Все это затеяно ради привязки к телефону и идентификации личности владельца ящика?
    Тогда это выплывет наружу и тоже выйдет боком Яндексу.
    Многие не знают, что вы читаете их почту, но слежка за каждым шагом — это уже чересчур!
    Люди, которым нужна защита почты, найдут решение своей проблемы.
    • +2
      Мы постараемся сделать так, чтобы обычные пользователи не заметили, что система работает. Смысл агрегации индивидуальных характеристик для каждой учетной записи в том, чтобы избежать срабатываний даже в таком случае, как вы описали.
      Думаю, что выражение «слежка за каждым шагом», это преувеличение в данном случае.
      • +2
        Скажите лучше, что у вас есть на самом деле?
        технология которая работает хотя бы на 95% и может быть использована например в суде, чтобы доказать, что именно этот пользователь отправил данное сообщение?
        Или просто банальный набор фильтров от спама? 1 письмо в день — 1 млн писем в день.
        Что у вас там? Открытие за которые весь мир перейдет на Яндекс почту или так?
        Патент?
        повод написать на Хабре?
        Проясните.
    • +1
      Я не сотрудник яндекса, я безопасник.
      Яндекс занимается защитой своих пользователей. Это их дело. Я не буду пользоваться почтой, которую каждый школьник может взломать.
      Хотите маленькую историю? Давно давно я учился в школе. И подарили мне на день рождения модем (обычный такой, телефонный). И завел я себе ящик на mail.ru. И бед не знал. Письма приходили, письма уходили. Что еще нужно пользователю почты? А потом узнал о разных сайтах с «халявой» (был такой бум в инете одно время). Хотел зарегиться на забугорном сайте, чтобы получить какие-то ништяки, а сайт сказал мне, что с таким почтовым сервисом он работать не будет, сделайте себе нормальный ящик на яху и гмайл, тогда и приходите. Как вам такая репутация наших русских почтовых сервисов?
      А мой бывший начальник регистрировался в свое время на яху только из-за того, что у них в правилах было написано «ни по каким запросы гос.органов, ни в каких случаях никто и никогда не получит доступа к вашим письмам».
      Для многих людей безопасность довольно важна.
      Вы удивитесь, но в банках большинство операций проводится вручную. Операционист проверяет платежку прежде чем согласовать ее. Это тоже не их дело? Это же ведь деньги клиента, а не банка. Это репутация. Это забота о клиенте.
      Только представьте, что где-то сидит человек, который просматривает каждую операцию по вашей зарплатной карте. Каждую. Это его работа. Благодаря ему вы не боитесь расплачиваться картой в магазине. Благодаря ему мошенников в банковском секторе почти всегда ловят.

      Что-то много буков получилось. Извините, эмоции.
      • 0
        А вы путаете Яндекс почту и мэйл рушечку с клиентом сбербанка.
        Люди заводят Яндекс почту в основном для личных сообщений и очень многие думают что ее никто не видит, потому что есть «пароль».
        Когда выясняется, что разные «сноудены» пересылают их личные фоточки своим друзьям ради хохмы, то возникает скандальчик.
        Людям ценят, хотя бы на словах декларацию:
        «ни по каким запросы гос.органов, ни в каких случаях никто и никогда не получит доступа к вашим письмам».
        Хоть и не пишут чаще всего ничего особенного.
        Если Яндекс почте нужна реклама:
        «где-то сидит человек, который просматривает каждое ваше почтовое сообщение...»
        то пожалуйста, это их выбор.

  • +3
    Интересно, но жаль, что без конкретики.

    Некоторое время назад я экспериментировал со скрытыми цепями Маркова для определения типа поведения пользователя — нормальный и троль. В моем случае троль — это пользователь, который слишком часто негативно оценивает, жалуется на контент, жалуется на пользователей, пишет непотребные комментарии и тд.
    Опирался так же на поведенческие факторы.

    К сожалению до внедрения в продакшн дело не дошло, но точность определения была достаточно высока.
    • 0
      Почему не попробовали внедрить? Методы машинного обучения в таких ситуациях дают хорошие результаты.
      • 0
        Да, дают, но причина банальна: не удалось выделить время на продакшн-код и его допилку, так как какая-никакая защита от троллей была и многих она устраивала.
    • 0
      А заметная была выгода от цепей Маркова в сравнении с более простыми подходами, где нет меняющегося скрытого состояния?
  • +12
    Это все очень хорошо, но, как и со многими другими вещами, надежно работает лишь в теории, а на практике получается как обычно:

    image
    • +2
      эту картинку в заголовок поста бы
  • +1
    Если не секрет, в каком из офисов вашей компании идет работа в данном направлении?
    • 0
      Во всей этой ветке это один из самых интересных вопросов, и он остался без ответа!
      Собственно присоединяюсь к вопросу и надеюсь что ответ на него когда-нибудь найдётся.
    • 0
      В московском company.yandex.ru/contacts/redrose
  • 0
    Интересно. Вы прям тему моей диссертации описали. Построение профиля типичного поведения пользователей электронных информационных систем. Я как раз и использую Марковские цепи для представления интересов пользователя, и для классификации его поведения на нормальное/аномальное.

    Тематика кстати не ограничена сервисами Яндекса. Тут и медицинские системы, военные, банковские, везде где есть принципиальный доступ к сенситивным данным разного типа.

    Хороший, простой пример — электронная библиотека, человек читает детективы и фантастику, а вдруг начал качать что-то другое, АГА!, если просто интересы (жанры) изменились — другой человек, если жанров стало очень много, то скорее всего бот скачивает.
    • +2
      Либо приняли новый закон и человек решил «схоронить» себе побольше…
      • 0
        По большому счёту, в случае академического исследования, причины нетипичного поведения человека нас не очень волнуют. Понятно, что в случае с библиотекой всё более-менее невинно, а к примеру если кардиолога вдруг начинают интересовать анамнезы психических заболеваний депутатов, то тут реагировать приходится строже
  • 0
    Вы, для начала, с IP адресами ОПСОСов разберитесь, обучите. Как не зайдешь с мобильного, так обязательно 403 ошибка и просьба писать на почту.
    • 0
      А меня как-то «забанили в гугле» из-за того, что в сети МТС, по их мнению, завелся ботнет :)
      • 0
        Одно дело поисковик, а другое Я.Деньги и Я.Диск
  • +3
    просто оставлю это здесь
    • +1
      Не все так страшно, чтобы понять, что поведение учетной записи изменилось не нужно нарушать приватность. Как выше уже отметили, все дело скорее в математике.
  • +1
    Скорее всего взломщик сначала закачает весь архив почты по IMAP. А потом на локальном диске уже все спокойно будет анализировать. Вот отслеживать закачку новую по IMAP наверное стоит. Что касается ассоциации аккаунта с номером телефона, то тут есть риск, что смс может быть прочитано злоумышленником.

    • 0
      Многие почему-то сконцентрировали внимание на привязке телефона. Хотя это далеко не единственный способ понять, кого нашла система. Что касается IMAP, то «большой набор факторов» может включать и такие. Спасибо за ваш комментарий.
  • +1
    Ну теперь я спокоен. как только потенциальный взломщик авторизируется с моим логином и паролем на яндексе, акк сразу же заблокируют, потому что я никогда не захожу Яндекс)
  • +3
    Сделайте так чтобы эту опцию мог включить или отключить владелец аккаунта
    • –1
      Это сделает всю систему защиты бесполезной.
  • 0
    Что-то мне подсказывает, что перед сессией половина студентов будет забанена :)
    • 0
      вряд ли, скорее — только те, у кого почта на Яндексе )
  • +2
    Выше уже сказали, но на всякий случай еще раз: не забудьте дать возможность отключить эту функцию. Человек лучше знает, что ему нужно.
  • +1
    А смысл этого всего только в одном — заставить пользователя добавить свой телефон или добросовестно заполнить больше информации в яндекс.паспорте. Что потом будет делать яндекс с этой информацией — ведомо только им.
    • –2
      Эта информация используется только для идентификации пользователей, она охраняется Федеральным законом РФ «О персональных данных». Обо всех принципах работы с персональной информацией можно прочитать в Политике конфиденциальности информации.
      • +2
        Не смешите пожалуйста.
    • –4
      Скажите, как эту информацию можно использовать во вред?

      Есть базы ГИБДД, есть телефонные базы, есть даже паспортные базы.
      По ним можно узнать вообще все о любом человеке и те, кому это нужно было, давно уже это сделали.
      • +1
        Ну, простейший вам пример. Яндекс следит за тем, что и как я ищу — тут споров нет? Контекстную рекламу мы ж все видим, кто специально ее не отключает. Так теперь и случайная — ну абсолютно случайная утечка телефонных номеров с инфой — «ищет холодильник» произойдет, и будете вы дополнительно читать и смс-рекламу.

        А дополнительно заполненная инфа — возраст, место проживания и т.п. — сделает рекламу более направленной на целевую аудиторию. Это азы, вообще-то. :)
        • –2
          Яндекс не начинает просить никакой новой информации от пользователей. Всё это уже просилось многие годы при регистрации логина. И огромное количество людей указывают, никаких сливов и спамов с холодильниками потом не получают.

          А возраст для рекламы можно определить и по посещаемым сайтам и интересам, например crypta.yandex.ru — для рекламы не нужно точные даты знать, они нужны только для точной идентификации владельца при восстановлении доступа, где приблизительные данные не подойдут.
  • +1
    нда, или отдавай полные данные — или бан) Скажем нет анонимности в интернете
    • –1
      В статье не говорится, что мы будем требовать какую-то информацию у пользователей, мы используем только те данные, которые у нас уже есть.
    • –2
      Разве в статье написано про бан? Я не нашёл.
  • –2
    Зачем писать об этом статью? Хорошо еще, что без подробностей. Эта идея не такая уж и новая. Если в компании над безопасностью серьезно думают (этим занимается не один человек в свободное время), то прорабатывают и такие вещи, и многие другие.

    Но именно такие статьи дают пищу для размышлений ленивым злоумышленникам-одиночкам. В результате они, как минимум, начинают учитывать возможность такой защиты. И, как говорилось выше, например, пробуют IMAP. Как максимум — трояны, написанные на коленке, будут воровать не только пароли, но и «поведение» пользователя, его ip (город, провайдер, чтобы найти там прокси), данные браузера (подделать их не составляет труда) и т.д.

    Разница лишь в том, что раньше это было делать лень, либо отсутствовали знания о том, что это нужно вообще делать при взломе (в силу той же лени). А догадаться не сразу можно, если не знаешь. Но из-за простоты реализации, юные хакеры быстро обучатся, и можно ожидать скорого апгрейда «меча» (в борьбе «меча и щита»). «Спасибо» за раскрытие карт.
    • +1
      То, что у человека есть привычки и портрет известно уже давно. До появления этой статьи.
      Весь вопрос в формуле, которая используется и в том списке факторов, который приходит на вход этой формулы. О тонкостях работы алгоритма защиты конечно же никто не расскажет.
      • –2
        Да, о привычках известно давно. Но не всем известно, что они учитываются. И особенно важно, что это известно далеко не всем мелким хулиганам.

        Например, в банковской сфере это используется уже практически повсеместно. Но откуда это знать мелкому жулику, который украл кредитку и подсмотрел пин-код?

        В статье нет ничего принципиально нового. Как вы правильно сказали, алгоритмов никто не раскроет. Суть статьи — «теперь и мы учитываем привычки». «Ага, ясно, будем иметь в виду», — сказали юные хакеры, читающие хабр, и начали эмулировать поведение жертвы, у которой украли пароли.
    • +1
      Это вы сейчас security through obscurity пропагандируете? Огюста Керкгоффса огорчает ваш комментарий.
      • –1
        Нет, это другое. Речь не о том, чтобы держать что-то в секрете. Это сложно, да и не особо нужно. Речь о том, чтобы не кричать об этом на каждом углу.
  • +2
    Когда то давно я пользовался вебмани. Перед переустановкой виндоус я аккуратно скопировал все относящиеся к нему ключи, чтоб после переустановки пользоваться дальше. Что же я получил? «ваш компьютер изменился подозрительно это». и предложение пройти 7 кругов ада.
    После пары часов попыток восстановить аккаунт я перестал пользоваться вебмани. Совсем. Есть альтернативы.

    А все сервисы требующие номера телефонов всегда регистрирую на разовые симкарты купленные в переходах метро. Потому с яндексом мне не по пути. Спасибо что предупредили.
    • –1
      Очень плохо показывать пальцем, но, меж тем, Google точно так же просит телефон и прочие дополнительные данные. И нигде в статье не говорится, что Яндекс перестанет предоставлять услуги, если дополнительные данные о себе Вы не оставите. Просто в этом случае Вы сами повышаете риск взлома и утраты доступа ко всему, что нажито непосильным трудом. Яндекс лишь предлагает загодя постелить соломки: на случай взлома или утраты пароля предусмотреть средства автоматического восстановления доступа.

      Все уважающие себя крупные системы, которые заботятся о безопасности хранимых пользовательских данных, работают над возможными средствами восстановления и повышением пользовательской же бдительности и грамотности, потому что без последнего все усилия по защите могут быть тщетными.
      • +1
        И что, у нас даже есть пользовательское соглашение с Яндексом: ваши данные более никак использоваться не будут? Нет?
        Тогда не надо рассказывать, что цель — ну исключительно подстелить соломки. А то прямо Джонсон и Джонсон, только те о здоровье нашем заботяться, а не о своем кошельке, а Яндексу до боли, до колотья сердца приспичило позаботиться о безопасности пользователей, о повышении, понимаешь, нашей компьютерной грамотности.
        • –1
          Яндекс и правда не благотворительный фонд. Но в первую очередь, чтобы не терять пользователей, надо о них заботиться, то есть беречь данные и уметь восстанавливать к ним доступ. Если пользователь возвращается на Яндекс за своими данными (письмами, файлами, музыкой…), Яндексу это выгоднее в разы, нежели если пользователь забывает пароль или его аккаунт взломан, в итоге он теряет доступ к всему, что нажито непосильным трудом, и перестаёт пользоваться Яндексом.
          Главная выгода — в использовании, а не в гипотетическом использовании имени и фамилии с датой рождения для рекламы. Тем более что это и правда не используется.
        • –2
          И да, у Яндекса есть Политика конфиденциальности персональной информации, которая является частью Пользовательского соглашения и гарантирует непередачу информации третьим лицам.
          • +1
            Угу. И в этой политике по первой же вашей ссылке:

            2. Цели сбора и обработки персональной информации пользователей
            [skip]
            2.2.5. Таргетирование рекламных материалов;

            Как-то странно это отрицать, нет?

            А вот этот пункт:
            2.2.2. Предоставление пользователю персонализированных Сервисов;

            Дает вам право на рассылку, нет? Это ж сервис. Хотя я его не прошу.
            • –1
              Я разве это отрицал?
              Яндекс и правда не благотворительный фонд.

              Все хотят кушать.
              На рассылку права не даёт, потому что в РФ это запрещено законодательно, а также это снижение репутации, что снова ведёт к оттоку пользователей, а Яндекс, как я уже писал выше, в первую очередь заботится именно об увеличении и возвращаемости пользователей.
      • +1
        т.е. если мне понадобится вдруг почистить ящик от нежелательных писем (в целях личной безопасности), то яндекс не позволит мне это сделать считая что это злоумышленник?
        отличный сервис с неприемлимыми рисками.

        ни в коей мере не оправдываю гугл. именно поэтому например на телефоне у меня стоит голый андроид, без сервисов гугла.
        • –1
          По одному только действию это вряд ли будет сочтено нехарактерной деятельностью. У Яндекса нет цели всё запретить. Принятие решения о взломе совершается на основе множества показателей. Прочитайте статью, посмотрите картинки — там наглядно показано, что взломанный аккаунт очень кардинально отличается от обычного, и это именно совокупность множества показателей (по оси ординат отложены именно разные характеристики, на которые смотрит система), а не удаление большого количества писем.

          Кажется, Вы недооцениваете способности аналитиков и разработчиков Яндекса, если считаете, что мы бросимся блокировать всё по факту удаления нескольких писем только на основании удаления этих самых писем.
          • +1
            типичный юскейс. узнаю о проблемах, захожу с ближайшего компьютера (чужого) в свой аккаунт и жму «удалить всё безвозвратно». он очевидно будет недоступен.

            остальные сценарии для себя считаю маловероятными.
            • –1
              1. Если вы удаляете всё безвозвратно, не всё ли равно, что будет дальше с ящиком?
              2. Вы сообщили лишь два признака, и те без подробностей. В реальности признаков в разы больше, и каждый имеет несколько нюансов и степеней влияния на систему.
              • 0
                (1) необязательно, адрес может быть красивым, например ^_^

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка