Редактор Habrahabr, Geektimes
0,0
рейтинг
17 апреля 2014 в 13:04

Разработка → Новый алгоритм распознавания изображений от Google способен распознавать CAPTCHA с точностью 99,8%



Сегодня команда проекта Google Street View опубликовала интересную новость. Дело в том, что разработчики сервиса создали новый алгоритм распознавания изображений, для того, чтобы с бОльшей точностью распознавать номера домов и названия улиц, сфотографированные автомобилями Google.



И этот алгоритм оказался весьма эффективным в другом деле — в распознавании CAPTCHA. Причем капчу от Google собственный алгоритм компании распознает с небывалой эффективностью — 99,8%. Это значительно лучший результат, чем показывает даже человек. Сами знаете, сколько раз порой нужно набрать символы капчи, прежде чем система признает их верно распознанными.

Старый алгоритм распознавания изображений работал на номерах домов с эффективностью 90%, что довольно мало, ведь объемы анализируемой информации просто огромны, и некоторые ошибки оказывались выложенными на Street View. На данный момент система распознала уже около 100 миллионов номеров по всему миру. Для работы нового алгоритма задействованы нейронные сети (немного технических подробностей, на английском языке, здесь — deep convolutional neural network). А вот объединенная статья команд Street View и reCAPTCHA о проблеме распознавания номеров домов и улиц.

Что касается капчи, то разработчики Google не переживают по этому поводу. Наоборот, теперь стало ясно, как еще можно защитить собственную CAPTCHA, чтобы ее хуже распознавали автоматические системы разного рода злоумышленников/спамеров. В общем, reCAPTCHA станет еще более надежной, а на Street View будет еще меньше ошибок.

Via techcrunch
marks @marks
карма
170,2
рейтинг 0,0
Редактор Habrahabr, Geektimes
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (102)

  • +105
    После улучшения Рекаптчи её человек вообще дешифровать сможет?
    • +33
      Скрытый текст
      image
    • 0
      Только человек Будущего! =)
    • +35
      Скрытый текст
      image
    • +3
      Будет капча наоборот. Угадал — значит робот :D
    • +3
      Введите слово:
      image
      • +5
        Ж О П А

        Угадал?
        • +2
          «Это было не сложно».
  • +12
    Теперь капчу будет еще труднее ввести человеку, для которого она создавалась.
    • +25
      В итоге будут другие критерии: распознал капчу — робот, ввел неправильно — человек!
      • +9
        Только вчера выкладывали в топик про double, опять актуально. )
        i.imgur.com/4GU7kg7.png
        • 0
          Кстати вот, wolfamalpha даже понимает, что это 3/10. Так что способ не прокатывает.
  • +9
    Как же плохо, когда нет хотя бы обзорного описания алгоритма и ссылки на научную статью (ссылка на статью, кстати, есть на techcrunch, а статья открыта). На techcrunch же есть и краткое описаиние—распознавание идет с помощью deep convolutional neural network.
    • +1
      Да, вы правы. Ссылки добавлены.
    • +1
      Статья ксати так себе по содержанию) Судя по всему тут все дело не в алгоритме, а в немаленькой обучающей выборке и долгом прцессе обучения. Т.ч. повторить такой эксперимент кому-то кроме Google будет сложновато…
  • +1
    Такими темпами думается мне, капче жить осталось не долго. Скоро алгоритмы переплюнут человека в этом деле.
    • +14
      Так собственно… Судя по данной статье — уже переплюнули.
      • 0
        А они как-то предоставляют доступ к алгоритму? Понятно, что их мощностями и возможностями он уже работает, но ведь злоумышленники не могут им воспользоваться. Пока…
        • 0
          Секьюрити троу обскьюрити — некошерно.
    • +25
      Рекапчу уже невозможно распознать с первого раза неанглоговорящему человеку.
      • +1
        А толку от того, англоговорящий ты или не англоговорящий. Там всё равно какая-то мешанина из обрывков слов.
        • +1
          … и номеров домов.
          • +1
            Номера домов вводить не нужно. Не знали?
            • 0
              Где вы были раньше…
            • 0
              Почему?
              • 0
                В том смысле, что не обязательно. Достаточно ввести основное слово, а дополнительный ребус от гугла (раньше были отсканированные слова из книг, сейчас номера домов) можно просто проигнорировать. Каптча всё-равно сработает.
              • 0
                Потому что они сами не знают что вы должны ввести (гугл купил компанию котарая придумала через капчу текст распознавать).
                • 0
                  Ну это понятно. Меня смутило слово «не нужно», вместо «не обязательно».
    • +11
      Уже год как, наверное. Стабильно ошибаюсь при вводе многих видов капчи, причем по три-четыре раза. Учитывая, что после каждой попытки еще зачастую нужно вводить заново логин + пароль, это бесит невероятно.
      • +5
        А еще дико бесит обратная ситуация — капчу ввел правильно, но паролем ошибся. И доказывай потом снова, что ты не холодильник…
      • +4
        Надо сначала обновлять капчу, пока не появится боле-менее приемлемый вариант, а потом уже заполнять остальные поля.
    • –1
      Просто алгоритм распознавания человека сменят. Если ввод капчи с первого раза — алгоритм усомниться в человечности вводящего :)
    • +1
      Такими темпами думается мне, капче жить осталось не долго.

      Кому надо, уже давно пользуется сервисами для разгадывания капч. Посмотрите цены. Разницы в эффективности между 90% и 99.9% — только один лишний запрос на десяток запросов.

      Соревнование бессмысленно, капчи уже сломаны и не работают, если кто-то нацелился конкретно на ваш сайт. Можно вспомнить хотя бы войну рапидшары с автоматическими качалками, когда каждый день использовался новый шрифт, и каждый же день обновлялись скрипты.
      • 0
        Так многие (если не все) сервисы разгадования капч сажают китайцев и они уже разгадывают. На антигейте точно китайцы разгадывают.

        PS. Причина загрузки под 100% мощностей по воскресеньям — выходные у китайцев/индусов, просьба относиться с понимаем. Постараемся их как-то простимулировать. (с)антигейт
      • 0
        Цены конечно жесть по сравнению с тем же пиксодромом, например: pixodrom.com
        оттуда: «у нас самая низкая цена на рынке: 100 правильно распознанных изображений стоят всего $0.07 (около 2 рублей);»
        • 0
          Чтобы эти цены казались жестью, каким же злостным спамером нужно быть?

          Отзывы от пиксодроме в инете какие-то неважные…
    • 0
      Порой по 8 раз к ряду приходится перенабирать.
  • +9
    Ну капча от гугла, как и большинства других компаний/сайтов, это защита от людей, а не роботов, что в очередной раз сама же гугл и доказала.
  • +14
    Скоро в обратную сторону пойдут. Ошибся, значит человек!
    • 0
      И тогда роботов научат ошибаться!
  • +1
    И так уже многим лень регистрировать аккаунты, а со сложными капчами этот процесс вообще превращается в ад. Пора уже придумать что-нибудь принципиально другое, что-то на замену капчи.
    • 0
      Придумали уже. «Авторизоваться через Фейсбук».
      • +1
        Авторизация через сторонние сайты — далеко не всегда применимый способ. Например, в той же авторизации через фейсбук иногда хотят слишком много прав, которые неясно для чего нужны. Давать эти права не хотелось бы. Поэтому, часто я отказываюсь авторизоваться через фб.
        • 0
          Надо просто возможность ставить галочки в фейсбуке — какие права вы хотите предоставить из запрашиваемых, а дальше уже проблема сайта — работать с той информацией, которая ему доступна.
      • +2
        А если у меня нет фейсбука? Что мне, специально заводить его?
        • +5
          Нет, заводите везде новый логин, пароль и вводите каптчу.
    • 0
      Давно уже придумано.

      Введите сколько будет дважды два (одна цифра): [ ]
      Как называется наша планета? (5 букв): _____

      и так далее.
      • 0
        Опять же не масштабируется. Если все начнут использовать такую капчу, то база вопросов и ответов быстро утечёт. К тому же на некоторые вопросы и компьютер ответит.
        • 0
          Да нет никакой базы. У каждого форума свой набор вопросов-ответов.
          А компьютер ответит только если он WolframAlpha и вопрос на английском.
          • 0
            Это пока такая система не распрастранена. Если пойдёт в массы — будут базы. Собственно, и сейчас для каждого конкретного форума с такой защитой можно написать простого бота.
            А на вышеприведённые вопросы гугл отвечает. То есть, ответ присутствует в первом результате рядом с текстом вопроса и его легко спарсить.
  • +7
    Ну всё. Теперь они самодостаточны.
  • +1
    Скоро откроют свой сервис anticaptcha, будут брать деньги со спаммеров за разгадывание собственной капчи.
    • +1
      Есть уже такая, и не одна.
      • +1
        Да, только там люди работают и разгадывают порой по несколько минут. А здесь робот, с высокой точностью и скоростью. Думается мне, что спамеры готовы за такое платить больше, чем людям :)
  • +4
    А может, новый алгоритм распознавания как раз и заключается в том, что картинка отправляется «нейронной сети» из 100500 индусов? :)
    • +3
      Это стандартный прием — достаточно просто подставить ее на сайт посещаемый как капчу или ее часть. Пользователь введет капчу — вот и картинка расшифрована.
    • 0
      А вы никогда не встречали в системе reCaptcha номера домов? Вот это оно и есть.
  • +4
    Минуточку, а вот на рекапче не номера ли домов появились в последнее время?

    image

    • +22
      Тсс! Это и есть новый алгоритм.
      • +1
        То то и оно.
        Конечно понимаю, что в гугле работают талантливые умнейшие люди нашего времени, но как то не верю (ц) Станиславский.
        Говорю это потому, что сам занимаюсь капчами в рамках проекта «Капча лаб».
    • +8
      Уже давно. Google перешёл с оцифровки книг (изначальной цели reCaptcha) на распознавание номеров домов на Google Street View.
      • 0
        Google перешёл с оцифровки книг (изначальной цели reCaptcha)

        Неужто все книги уже оцифровали?
        • 0
          Видимо, дома для Гугла важнее. Он не для того купил reCAPTCHA, чтобы книги оцифровывать…
          • +2
            Книги для Гугла тоже важны — они говорили: «Мы оцифровываем их не для того, чтобы их читал человек. Мы оцифровываем их для того, чтобы их прочитал ИИ».
            • 0
              Так наверно посмотрели на всю ту нецензурную брань, что вводят вместо слов из книг некоторые люди и решили, что ИИ такое читать вредно;) Вот и перешли на дома)
  • 0
    hashcash лучше капчи
  • 0
    Да рекаптчу уже давно очень успешно расшифровывает хрумер.
    Рекаптча — враг, боты её распознают, а вот у людей распознать её порой возникают проблемы.
    Keycaptcha намного более эффективна как в защите от роботов, так и для удобства людей.
    • 0
      Если мне не изменяет память, то хрумер разгадывает её с точностью то ли 80%, то ли 90%, но точно не 99,8%. В остальном, как по мне, то любая каптча зло, Keycaptcha в том числе. Лучше уж действительно авторизация через какой-то фейсбук.
      • 0
        Не все любят авторизовываться через соц.сети. Вот меня нет в фейсбуке и регистрироваться в нём ради того, чтобы где-нибудь оставить комментарий я не буду. Да и аккаунты соц.сетей регистрируют пачками, продают зарегистрированные или с фейков. Так что такую защиту обойти не составило бы труда.
        • 0
          Не все любят авторизовываться через соц.сети. Вот меня нет в фейсбуке и регистрироваться в нём ради того, чтобы где-нибудь оставить комментарий я не буду.

          Мне лучше один раз зарегистрироваться в соц. сети, вместо сотни вводов каптч.

          Да и аккаунты соц.сетей регистрируют пачками, продают зарегистрированные или с фейков. Так что такую защиту обойти не составило бы труда.

          Аккаунты пачками регистрируют, а каптчи миллионами разгадывают. Цена разгадывания одной каптчи на порядок меньше, чем цена одного аккаунта. Каптчи уже давно не помеха для спамеров. К тому же, если я не ошибаюсь, в фейсбуке идёт подтверждение по телефону, что уже сильно ограничивает максимальное количество аккаунтов, а если к этому добавить возможность жаловаться на спам от аккаунта, через который залогинились на сайте и оперативно банить такие аккаунты — то спам превратится в довольно дорогое занятие.
      • 0
        Вам изменяет память :) хрумер никогда не разгадывал кейкапчу. Пытался, да… даже релиз выпустил, но только он так и не работал, а в следующем же релизе выкосил все и сказал — «ну их нахрен» ибо это испоняемый код и что «прелетит» в следующий раз не известно :)

        Авторизация через соцсети ФЭЙЛ и НЕ защита от спама… Один раз зарегистрировавшись в соц. сети бот может спамить на все форумы где есть такая авторизация… Другое дело что спамеры пока еще на промышленный поток это не взяли, но уверен, в ближайшие полгодика всех форумоводов ждет «приятный» сюрприз в виде массового появления соответствующих ботов (в том числе хрума).
        • 0
          Вам изменяет память :) хрумер никогда не разгадывал кейкапчу. Пытался, да… даже релиз выпустил, но только он так и не работал, а в следующем же релизе выкосил все и сказал — «ну их нахрен» ибо это испоняемый код и что «прелетит» в следующий раз не известно :)

          Речь шла о рекаптче, а не кейкаптче. might сказал, что хрумер уже давно её разгадывает, на что я ответил, что процент разгадывания был не на столько большой, чтобы сравнивать эти 2 новости.

          Авторизация через соцсети ФЭЙЛ и НЕ защита от спама… Один раз зарегистрировавшись в соц. сети бот может спамить на все форумы где есть такая авторизация… Другое дело что спамеры пока еще на промышленный поток это не взяли, но уверен, в ближайшие полгодика всех форумоводов ждет «приятный» сюрприз в виде массового появления соответствующих ботов (в том числе хрума).

          Я уже комментировал этот момент habrahabr.ru/post/219767/#comment_7504683

          При желании очень сильно усложнить жизнь спамерам можно. Ну или хотя бы сделать цену за каждый спам-комментарий очень высокой.
          • –1
            Только процесс этот никак не может контроллироваться владельцем форума или какого-то сообщества. Только самой соц-сетью… А им знаете не до спама на сторонних ресурсах, им бы со спамом у себя разобраться. Вобщем имхо авторизация через соц-сети как средство борьбы со спамом, это путь «в никуда».
  • 0
    Не знаю как кто, но я всегда вместо второго слова пишу некультурную брань…
    • +2
      Зачем?
      • +2
        Менталитет, однако.
        Человека бесплатно пытаются припахать распознавать что-то, значит надо саботировать процесс!
      • +1
        Аналогично поступаю, с тех пор, как гугл стал подсовывать не читаемую картинку в 50% случаев. Я с ними никаких договоров на разгадывание рекапчи не заключал, а то, что они делают — это неуважение к пользователям.
    • 0
      Я, если не понимаю сходу, что там написано — пишу «абы что», но если понимаю — пишу верно.
      • +3
        Там лёгкое слово распознаётся для пользы, а трудное собственно капча, если я верно понял.
        • +1
          Скорее наоборот. Легкое слово гугл знает и проверяет народ на адекватность, а трудное сам распознать не может, и подсовывает людям сканы, фото и т.д. (которые не влияют на результат). Затем выбирает из ответов самый распространенный, считая это «правильным» для книг, номеров домов в картах и т.д.
  • +11
    Недавно мне нужно было зарегистрироваться на одном китайском сервисе и для подтверждения, что я настоящий китаец, нужно было ввести капчу, 4 иероглифа!!! Вот тогда я прочувствовал все прелести китайской грамоты!image
    • +2
      馬月想待念 — не так уж и сложно. Открываете «Таблицу символов», выбираете «Идиографическое по ключам» и ищете по ключам вроде 月, 心, 彳, 人 — сортировка по количеству черт.
      • 0
        Ну, в системе ключей ещё разобраться надо. К тому же можно менять шрифты на капче! Всякие скорописные там… Правда это отсеет и неплохой процент самих китайцев :-)
  • +4
    Как-то баловался переводом с китайского. Вынуть текст из картинки иногда помогал сайт
    www.chinese-tools.com/tools/mouse.html

    С n-ного раза получалось нарисовать то, что требуется.
  • +2
    Всё это будет приводить к деанонимизации интернета. Из-за невозможности использовать капчу для отличения людей от ботов будут использоваться другие средства, связанные с реальным миром, такие как запрос номера телефона и его проверка (уже используется многими сайтами — вк, gmail).
  • +3
    Посмотрим, как он справится с капчей на моем сайте

    • 0
      Проглядываются буквы A и g… но мутно как-то… :)
      • 0
        Я тут немного с фильтрами поигрался, поресайзил и вот что получилось
    • +3
      По чесноку, вы сами-то с ней справитесь? Мне лично слабо, мои глаза не способны распознать низкоконтрастные контуры, адово пережатые jpeg-ом.
    • 0
      76BW128?
      • +1
        Она генерируется каждый раз.
    • +3
      Кто-нить уже зарегистрировался?
    • +5
      Ой злая версия)) Хотя порадовала надпись ниже:
      WARNING: Please ignore the image, and instead enter chemical symbol for Silver (case is ignored).

      P.S. Мне кажется или правильнее «instead» перенести в конец предложения?
    • +3
      Кстати, такие варианты самые правильные. Но отсеивают добрую часть пользователей, не умеющих читать.
      Аналогично — простая капча, но подпись «введите третью и пятую букву с картинки» в разных вариациях.
      • +2
        «Но отсеивают добрую часть пользователей, не умеющих читать» — это вообще бесценная фича :-)
        За всю историю (года 3) раза 2 мне в почту писали, жаловались на капчу.
      • +2
        Проблема в том, что такая система не масштабируется. Пока она стоит на одном малоизвестном сайте, боты её не проходят. Но если задаться целью её обойти, то сделать это элементарно.
      • 0
        На паяльнике кажется была простенькая схема, где надо было подсчитать чему равняется тот или иной параметр в цепи.
        • +1
          На flyback.org.ru — тоже схема, но не совсем простенькая :-)
          И в симуляторе «в лоб» не просимулируешь — там использовались идеальные диоды, которых быстро в симуляторе (LTSpice) не нашел.
          Минут 5 на капчу ушло :-)



          рансформатор имеет коэффициент трансформации sqrt(2):1
          R1=180ом R2=170ом R3=890ом. все элементы схемы идеальны, падение напряжение на диоде равно нулю
          Входное напряжение: синусоидальное 50гц, с действующим значением 127В
          Определите, сколько Дж энергии будет накоплено в конденсаторе C2?

          Сейчас заметил, что адрес капчи у них статический…
          • +5
            Напомнило:
            image
    • –1
      так сверхалгоритмы можно научить понимать текст, и тогда бот может понять, что ему не надо парсить картинку. Мне кажется, научить понимать текст не на много сложней, чем считывать инфу с картинки.
      • 0
        Когда боты научатся понимать текст и сами начнут отвечать на вопросы, люди станут не нужны.
  • 0
    Ну вот, теперь будет двухфакторная регистрация/авторизация на большинстве крупных и не очень порталов.
    Наверное, будет выводиться капча и надо будет в определённом порядке, высланном по смс, впечатывать символы с капчи на экране.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.