Пользователь
0,0
рейтинг
7 января 2014 в 13:41

Разработка → Инженеры Google рассказали об успехах в распознавании номеров домов с фотографий StreetView

Команда инженеров Google, возглавляемая парнем с дружелюбной фамилией Гудфеллоу (Ian Goodfellow, закончил университет по CS в 2009 году и может похвастаться солидным списком научных публикаций), опубликовала на arxiv.org работу, в которой отчиталась о своих успехах в сборе информации, которым располагает база проекта Google Street View — в частности, об автоматическом распознавании номеров домов с таким же качеством, как бы это делал человек. Красноречивый факт — Google может получить все номера домов во Франции (точнее, там где проехал гугломобиль) за время менее часа.

Работа называется Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks и в ней речь идёт о использовании нейронных сетей для целей распознавания. Как очевидно, дело сильно осложняется множеством факторов: разные места расположения номера дома, цвет таблички, её всевозможные наклоны, качество как самой таблички, так и её фотографии, и целый ряд других.

В итоге задачу переложили на модификацию нейронной сети DistBelief с 11-ю уровнями нейронов (это таже сеть, которую Google использует для «deep learning» для выявления семантического смысла понятий), которую требовалось обучить при некоторых упрощающих предположениях. Прежде всего на изображении номер должен точно присутствовать, и изображение должно быть подготовлено таким образом, чтобы искомый номер занимал примерно одну треть его. Также в команде вполне резонно допустили, что длина номера дома может быть ограничена пятью цифрами, что приемлемо для большинства систем городской нумерации в мире.

Вот так выглядит raw source для нейронной сети:

image


Тренировка сети заняла около шести дней и осуществлялась на материалах общедоступной базы Street View House Numbers, которая уже содержит примерно 200 000 таких же номеров. В итоге после обучения точность распознавания системы Google составила 96%, что сравнимо с человеческим показателем аналогичной работы в 98% — эта цифра и будет целью для дальнейших исследований.

[Источник]
Евгений @jeston
карма
80,2
рейтинг 0,0
Пользователь
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (38)

  • +41
    Это те самые фотографии из капчи! Гугл использует нас!
    • НЛО прилетело и опубликовало эту надпись здесь
      • –7
        А можно вообще писать только контрольное слово
        Например
        image
      • +16
        А я вписываю правильные. Приятно хоть в чем-то помочь такой компании как Google.
        • 0
          +1
        • НЛО прилетело и опубликовало эту надпись здесь
          • +2
            А зачем они их продают?
      • +7
        Хм, в чём утешение? Вы не хотите улучшить карты, книги ит.п.?
        • НЛО прилетело и опубликовало эту надпись здесь
          • 0
            Почему под видом?? Что-то у вас не то в мироощущении… Вы готовы просто так сидеть и вписывать номера домов, слова из отсканированных книг? Подозреваю, что ответ — «нет». А тут вам предлагается либо сделать доброе дело по распознованию, либо ввести только чёртов каптча-код. В чём проблема? Кто вам что навязывает?
            • НЛО прилетело и опубликовало эту надпись здесь
            • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Надеюсь не сильно испорчу утешение, сообщив что цифры все-равно будут распознаны верно :)
        Каждое фото показывают нескольким людям.

        Вписав неправильное вы лишь только добавите несколько дополнительных проверок.
        • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          Это как голосовать за Жириновского — смысла никакого, но есть ощущение что пошел против системы.
          • НЛО прилетело и опубликовало эту надпись здесь
            • 0
              Без ввода неправильных цифр?
              • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Вписывая правильные слова, вы помогаете оцифровывать отсканированные книги. Вот отличный спич на TED человека, который придумал это.
    • 0
      Самое смешное, когда кто-то ещё вкладывает свои деньги в распознавание капчи через сервисы антикапч ( antigate, pixodrom.com и т.п.)
      • 0
        А почему смешное? У меня на antigate $10 лежит, для целей автоматизации, не смеюсь :)
    • +15
      На мой взгляд новость должна звучать так:

      Инженеры Google рассказали об успехах в распознавании номеров улиц с фотографий StreetView. Все очень просто — они использовали миллиард реальных человеческих мозгов, благодаря чему точность распознавания системы Google составила 96%. Однако, 2% людей намеренно вбивают неверное значение, поэтому 98% — эта цифра и будет целью для дальнейших исследований.
      • +5
        В последнее время я половину всех встреченных капчей не смог распознать. Сдается мне оставшиеся 2% — это мой косяк. Видимо я робот. Простите.
  • –4
    С нашей Российской нумерацией… отсутствием во многих местах надписей о номере дома (могут присутствовать надписи другого типа =D)… я думаю программа гугла загнулась бы еще на этапе старта.
    • +8
      У нас еще все очень здорово. В некоторых странах вообще нумеруются только дома на перекрёстках (да и то не всегда)…
      Ещё интересно, как они там в гугле решают, что увиденная цифра — номер дома. Т.к. цифра может быть частью названия улицы, номером какой-нибудь трансформаторной будки и пр.
      • 0
        Давайте посмотрим на Калининград, с диапазонной нумерацией домов. А в Падове адрес компаний меняется в зависимости от этажа.
    • +3
      В Японии, ЕМНИП, номера домов назначены хронологически, а кварталы сами по себе имеют имена (в отличие от улиц). Но в рашеньке, КОНЕЧНО ЖЕ, всё априори хуже, чем везде.
      • –1
        В рашке тоже такое встречается. Взгляните на Набережные Челны на яндекс.карте.
      • +2
        Конечно же хуже. Но не априори, а по факту. И не все, а конкретная ситуация с номерами домов.

        В Японии есть такая специфичная традиция — ну ок. А в Питере на половине домов нет номеров. Безо всякой традиции — их тупо нет. Удачи, гугл!
  • +3
    Интересно, что на домах пишут не только номера домов. Например, есть номера пожарных кранов. А есть еще номера телефонов для аренды офисов — прямо на все окно или дверь — неплохой 10и значный номер. Есть буквы после номеров домов, которые напоминают цифры как Б и В и они не обязательно пишуться через тире. Да, есть много успешный способов сбить нейронную сеть с толку, уже опрабованных на тысячах других нейронных сетях по сложности превосоходящих любой неживой объект во вселенной. Чувствую, будет как в анекдоте
    — 3030-й! Я последний раз спрашиваю, где 3030-й!
    — Зозо моя фамилия, товарищ прапорщик.
    • 0
      Вот кстати да, и ведь ни разу на каптче не попадалось слово из трёх букв или ПГ-17.
      • +1
        Мне вот вообще не номер, а пятно на стене попалось. Так что ошибки классификации бывают.
        Скрытый текст

  • +3
    Главный вопрос: кто находит и вырезает номера домов со снимков Street View для удовлетворения условий «на изображении номер должен точно присутствовать, и изображение должно быть подготовлено таким образом, чтобы искомый номер занимал примерно одну треть его»?
    Если алгоритм или нейронная сеть — то интересно было бы почитать его описание.
    Если штат индусов — то могли бы и цифры распознать заодно, никакие алгоритмы не нужны.

    Что-то тут нечисто. :)
  • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      А тут уже все зависит от многих факторов. Среди них такие, как объем выборки (если у нас всего 100 изображений или 1млн — разные вещи) и уровень значимости (насколько точный результат нам надо, может быть нас удовлетворят и 90% правильных распознаваний). И многое другое.
      Другими словами, в одной ситуации разница в 2% и в 4% представляет собой почти одно и тоже, а в другой ситуации — это непростительно. И как раз таки в ситуации с номерами домой, я думаю, это вполне простительно.
    • 0
      Там вообще-то рассмотрена эта проблема и решена, на мой взгляд, остроумно: результат каждого распознавания оценивается по степени его «надежности» и «ненадежно» распознанные варианты отбрасываются. Чем выше порог — тем меньше будет распознано изображений, но среди распознанных будет меньше процент ошибок.

      И если выставить порог точности распознавания в 98%, то нейросеть распознает 96% изображений :). Т.е. 96% работы можно выполнять автоматически а остальные 4% поручить людям. Либо распознавать все 100% изображений, но уже с 4% ошибок. На мой взгляд это очень впечатляющее достижение.
    • 0
      Надёжность часто описывается вроде 99,9%, постоянно увеличивая количество девяток после запятой. И каждая девятка — десятикратное уменьшение брака.
  • +1
    Жаль что в этой работе не указан объем обучающей выборки. Если 96% достигнуто на второй половине базы после обучения на первой половине — то это отличный результат, а если в обучающую выборку входила вся база целиком (а у меня складывается ощущение, что в изрядной части «потрясающих достижений нейросетей» так и делали), то эти 96% ни о чем не говорят.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.