gregyku Feb 5 at 16:58

Докажи, что ты человек: как появилась и развивалась капча, и что ждет ее в будущем

Easy

9 min

4.9K

Онлайн Патент corporate blogHistory of ITArtificial Intelligence

Retrospective

Для владельцев сайтов капча много лет была бесценным инструментом для предотвращения атак злоумышленников, а для их пользователей — раздражающим всплывающим окном, отнимающим время. На фоне стремительного развития ИИ многие заговорили о том, что капча, какой мы ее знаем, скоро останется в прошлом. Рассказываем, избавит ли нас следующее поколение капчи от поиска мотоциклов и светофоров, и что придет на смену.

Что такое капча

Знакомое всем интернет-пользователям (и вызывающее у многих раздражение) слово CAPTCHA — инструмент, который используют сайты для различения реальных посетителей и ботов, что помогает им предотвращать кибер-атаки злоумышленников.

Сама аббревиатура расшифровывается как Completely Automated Public Turing Test To Tell Computers and Humans Apart (полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей).

Название отсылает к методу знаменитого британского математика и пионера компьютерных наук Алана Тьюринга. В статье 1950 года «Вычислительные машины и разум» он задался философским вопросом: может ли машинный интеллект «думать» и как это проверить?

Для этого ученый предложил модель, в которой один человек взаимодействует с другим человеком и с компьютерной программой и должен вслепую определить, кто из них кто.

С появлением интернета вопрос о том, как отличить человека от машины стал не философским, а вполне насущным. Веб-сайты наводнили боты, которые злоумышленники используют для DoS- и DDoS-атак, взлома личных данных и спама.

Как появилась капча

CAPTCHA v1

В 1997 году боты начали добавлять спам-ссылки в поисковом сервисе Alta-Vista. Сервис был построен на том, что пользователи могли сами вносить URL-ссылки в библиотеку. Чтобы сохранить эту возможность, ведущий научный сотрудник компании Андрей Бродер создал специальный фильтр. Он генерировал случайный набор символов, которые мог легко распознать человек, но не боты того времени. Это, по словам Бродера, снизило наплыв последних на 95%.

В 2000 году с похожей проблемой столкнулись сотрудники интернет-портала Yahoo!: боты засоряли онлайн-чаты сервиса спам-ссылками. На помощь компании пришел программист Луис фон Ан и его коллеги из Университета Карнеги-Меллона — они усовершенствовали метод Alta-Vista. В новом инструменте GIMPY CAPTCHA использовались случайно выбранные английские слова в искаженном по цвету и форме написании.

Вскоре метод пополнился различными форматами задач: выбором картинок, математическими примерами и расшифровкой аудио.

ReCAPTCHA

Второе поколение капчи — известную и используемую и по сей день ReCAPTCHA, придумала все та же группа ученых из Университета Карнеги-Меллона. Как рассказывает фон Ан, идея впервые пришла ему в голову, когда он увидел в самолете людей, решающих кроссворды и подумал: «А это-то компьютеры делать не могут».

Хотя сам гватемальский ученый признает, что ошибался (ИИ легко решал подобные задачи уже тогда) это навело исследователея на размышления о том, что капча вынуждает нас тратить впустую наш главный ресурс — циклы работы человеческого мозга. Проще говоря, фон Ан решил монетизировать интеллектуальный труд, который мы тратим на капчу.

Исследователи изобрели усовершенствованный инструмент — ReCAPTCHA. Новый сервис использовал для теста неоцифрованные изображения и фрагменты текста. Таким образом, решавшие его пользователи помогали пополнять цифровую библиотеку правильными маркировками. Главный центр сканирования сервиса был открыт в 2004 году и расположен в библиотеке Университета Торонто. Сегодня он переводит в цифровой формат около 1500 книг в неделю, данные из которых затем используются в головоломках.

В 2009 году фон Ан и его команда успешно продали ReCAPTCHA Google за десятки миллионов долларов (точная сумма неизвестна). Текстовая версия сервиса была использована для обработки сканов книг для сервиса Google Books.

Примеры ReCAPTCHA первого поколения. Источник

Вот, как это работает. В текстовой капче лишь одно слово — реальный тест, а второе — пока еще не распознанное. Если пользователь верно ввел первое слово, значит можно доверять его прочтению второго и использовать его как расшифровку. Перепроверить можно, показав это же слово другим пользователям. Тоже самое и с изображениями — три пожарных гидранта или моста из подборки уже классифицированы, а четвертое помогает опознать пользователь.

По тому же принципу работают и наиболее распространенные сегодня версии ReCAPTCHA, которые используют в задачах картинки. Выбирая автобусы и мотоциклы на изображениях с Google Street View, пользователь помогает обучать искусственный интеллект компании, маркируя для него данные.

Взлом капчи — почему нужны новые методы

Вместе с развитием капчи, возникали все новые и с каждым разом все более изощренные способы ее обойти.

Программы, помогающие взломать капчу, обычно используют системы распознавания изображений (OCR), анализируют код страницы на наличие ответа и проверяют, не использовалась ли та же задача сайтом в прошлом.

Кроме того, любая капча — это прежде всего код, в котором могут встречаться баги и ошибки. Так, в 2018 году аргентинский исследователь кибербезопасности Андреас Рианчо нашел и подробно описал способ обходить ReCAPTCHA от Google. Метод использовал уязвимый фрагмент кода, отвечающий за запрос на решение задачи от веб-приложений. Программисты устранили ошибку, но ситуация показала, насколько уязвимым может быть продукт даже у техногиганта.

Широко распространенный в 2000-е способ взлома капчи — спам-фермы. Расследование американского онлайн-медиа о технологиях ZDNet 2008 года показало, что индийские компании нанимали людей для потокового ручного решения капча-задач, платя им всего около $2 за 1000 головоломок.

Многие современные капчи используют анализ данных браузера для определения ботов. Ответом на это со стороны взломщиков стали расширения для браузеров, которые имитируют человеческое поведение и «нормальную» историю поиска, помогая программам выдавать себя за людей.

Развитие ИИ стало огромным вызовом для капчи. Именно из-за него многие эксперты последние два года предрекали скорую смерть инструмента. Так, уже в 2013 году ИИ-стартап Vicarous победил капчу при помощи искусственного интеллекта, опубликовав методологию в журнале Science. А в марте 2023 года ChatGPT не просто взломал инструмент, но убедил человека помочь ей преодолеть его, притворившись слабовидящим пользователем.

Капча для эпохи ИИ

Если при запуске ReCAPTCHA в начале 2000-ых инструмент выявлял ботов в 97% случаев, к 2012 этот показатель упал до 92%, что вынудило IT-специалистов искать новые решения. Дальше — больше. Недавнее исследование Калифорнийского университета и Microsoft выявило, что в классических CAPTCHA-тестах распознаваемость задач человеком составляет 81% для выбора изображений и 50-84% для идентификации искаженного текста, в то время как робот решает их с точностью в 83% и 99,8% соответственно.

При этом перед разработчиками всегда стояла непростая задача: усложнить загадки для роботов, но не для человека — и они далеко не всегда с ней справляются.

No-CAPTCHA ReCAPTCHA

В 2014 году в Google разработали No-CAPTCHA ReCAPTCHA (она же ReCATCHA V3) — капчу без капчи. Этот инструмент вместо решения задач предлагает пользователям честно признаться, что они не роботы, поставив галочку в окне.

Сервис анализирует движение курсора пользователя, а также данные из его браузера, которые свидетельствует о том, что он реальный человек. При этом компании не раскрывают, какие еще данные используются для анализа, чтобы не упрощать работу злоумышленникам.

Похожие инструменты используют такие корпорации, как Apple и CloudFare.Технический директор последней Джон Грэм-Камминг утверждает, люди очень «по-человечески» возятся с компьютерной мышью и сенсорным экраном, а не выбирают поле с максимальной точностью и эффективностью.

No-CAPTCHA ReCAPTCHA от Google. Источник

Аудио-CAPTCHA

Первые аудио-версии капчи появились еще в начале 2000-х как альтернатива для слабовидящих людей. С появлением продвинутых систем распознавания речи инструмент становился все менее надежным. В 2011 году группа ученых из Стенфордского университета расшифровала алгоритм, который использовался в это время Microsoft, Digg и eBay.

Для усовершенствования метода в 2016 году Google получил патент на технологию, получившую название 3D-аудио CAPTCHA. Дорожки, которые она использовала для теста, помимо зашифрованного слова содержали множество фоновых звуков разной громкости и создавали эффект записи с шумной вечеринки. Большое количество звуковых источников усложняло задачу автоматическим распознавателям голоса. Но часто и пользователи тоже не могли разобрать слово с первого раза.

AWS WAF Captcha

Amazon зарегистрировал 16 патентных заявок на собственные технологии капчи. Одной из самых необычных идей был тест Тьюринга наоборот: для успешного прохождения капчи пользователи должны были неправильно ответить на вопросы.

В качестве примеров в заявке использовались классические детские загадки, «обманывающие мозг». Например, пользователям предлагалось несколько раз повторить слово, похожее на «молоко», а затем — ответить на вопрос, что пьют коровы. Предполагается, что большинство людей вопреки здравому смыслу не ответят вода, тогда как для робота это не будет сложно. Судя по тому, что дальнейших публикаций об использовании такой капчи не находится, идею сочли не такой уж удачной.

Концепция задач, которые человек должен решить неправильно от Amazon. Источник

Отдельный патент Amazon получила на задачи, основанные на Ньютоновской физике. От пользователя они требуют даже не знания предмета на уровне средней школы, а здравого смысла — компонента, который пока не удалось привить искусственному интеллекту.

Пример такой задачи, описанный в патентной заявке — выбрать, какой из вариантов развития события ждет персонажа картинки дальше. Предполагается, что компьютерному интеллекту элементарно не хватит вводных данных о направлении движения, скорости и массе объектов, необходимых для решения этого с позиции классических физических задач.

3D-Captcha

В 2019 году еще один способ вывести ботов на чистую воду предложил калифорнийский стартап в сфере кибербезопасности Arcose Labs. Их инструмент использует в задачах 3D-моделей, которые создает собственный ИИ.

Как заявлял CEO компании Кевин Гошалк, этот метод значительно опережает классическую ReCAPTCHA по эффективности и удобству для пользователей, которые решают задачи с первого раза в 97% случаев.

Метод Arcose Labs основан на том, что нейросеть, привязанная к инструменту, рендерит 3D-объекты в режиме реального времени, а их распознавание требует от искусственного интеллекта долгого ручного обучения. Впрочем, сегодняшние модели все лучше справляются с анализом 3D-объектов и даже воссоздают их по одному снимку, поэтому продукт уже не выглядит таким перспективным.

Proton CAPTCHA

В 2023 году собственную версию инструмента представила компания Proton, известная благодаря зашифрованной почте ProtonMail и сервису ProtonVPN . Как заявил глава отдела безопасности компании Имон Магуайр, большинство CAPTCHA-сервисов, собирая конфиденциальную информацию о пользователях, не защищают ее от передачи интернет-гигантам, которые используют большие данные в собственных интересах. Кроме того, текущие решения легко обходит ИИ.

Proton CAPTCHA использует многоуровневую защиту, в которой сочетаются анализ активности пользователя и логические задачки. Сервис предлагает проходящему тест типичные 2D-головоломки (например, достроить пазл или подобрать нужную фигуру), сложность которых повышается при выявлении подозрительной активности. Таким образом, предполагается, что если бот решит первую задачу, он столкнется с более серьезными испытаниями.

Альтернативы капче

Как бы то ни было, до бесконечности усложнять капчу нельзя. У сложности задач капчи есть фиксированный потолок: если она слишком сложная, пользователи предпочтут просто уйти с сайта. Поэтому ученые стремятся придумать другие решения на ее замену.

Один из самых распространенных — метод Honeypot («горшочек с медом»), названный так по аналогии с Винни-Пухом, которого заветный десерт заставил застрять в кроличьей норе. Самые простые версии используют скрытые от человека прозрачным цветом поля, которые считывает и заполняет компьютерный интеллект, тем самым выдавая себя.

В 2023 году этот метод помог исследователям кибербезопасности из компании GoSecure записать и подробно проанализировать действия хакеров, включая личные данные с устройств злоумышленников. Тем не менее, Honeypot хорошо работает только до тех пор, пока злоумышленники не знают о его применении, и лишь с простыми ботами.

То же можно сказать и о встроенных антиспам плагинах, таких как Akismet от системы управления контентом сайта (CMS) WordPress и встроенных в веб-приложения файерволлах (WAF). Они рассчитаны на предотвращение определенных типов атак, но и едва ли защитят от обучающихся моделей ИИ нового поколения.

Надежный способ идентификации посетителя сайта — мультифакторная авторизация, при которой тот подтверждает личность через сообщение или звонок, а также сбор биометрических данных: отпечатка пальца или скана лица. Тем не менее, это тоже очень усложняет путь пользователя и далеко не все из них готовы будут оставлять личные данные для доступа к сервису.

Еще один дорогостоящий, но эффективный способ — сторонние сервисы, выявляющие ботов. Организации, которые предоставляют такие услуги, используют и модели машинного обучения, и специалистов, дополнительно контролирующих активность на вверенном им сайте. Поэтому стоимость инструмента значительно выше автоматизированных методов.

Тем не менее, такие продукты демонстрируют, что если за ИИ будущее, то нейросети могут помочь не только более эффективным взломам, но и более эффективной защите сайтов. Среди систем, которые уже сегодня успешно анализируют активность на сайте и выявляют опасности на основе машинного обучения — GuardDuty от Amazon и Watson for Cybersecurity.

Подводя итог, можно сказать, что капча точно не исчезнет, но бороться ей придется с сильно поумневшими ИИ. Вот только справится ли она?

Автор: Александр Артамонов

Полезное от Онлайн Патент:

→ Что такое Реестр отечественного ПО?

→ Бесплатный онлайн-поиск по базам данных Роспатента и Мадридской системы (доступно после регистрации).

→ Может ли иностранная компания внести свою программу в Реестр отечественного ПО?

→ Как IT-компаниям сохранить нулевой НДС и попасть в Реестр отечественного ПО

→ Как запатентовать технологию?