Новый рекорд в распознавании речи: уровень ошибок алгоритма снижен до 5,5%


    IBM 100: Истоки работы над распознаванием речи

    Обычный человек, в среднем, пропускает мимо внимания или неправильно распознает 1-2 слова из 20, произнесенных собеседником. В ходе пятиминутной беседы количество не расслышанных или неправильно распознанных человеком слов может достичь 80. Довольно много, правда? А что по поводу компьютеров — какой процент ошибок у них?

    В прошлом году корпорация IBM заявила о новом рекорде в разработке технологий распознавания речи. Количество ошибок, допущенных сервисом, снизилось до 6,9%. С тех пор компания многое улучшила, что в 2017 году позволило добиться нового рекорда в 5,5%.

    И речь здесь идет вовсе не о распознавании правильно поставленной речи, предложений, произносимых, например, профессиональным диктором. Нет, 5,5% — это показатель ошибок распознавания речи в ходе обсуждения двумя обычными людьми возможности покупки автомобиля или других тем.

    Такое достижение стало возможным благодаря объединению LSTM (Long Short Term Memory) и языковых моделей Wave Net с тремя другими акустическими моделями. В результате компьютер в некоторых случаях распознает речь даже с меньшим количеством ошибок, чем человек (здесь средний показатель составляет 5,9%). Но разработчики IBM решили не останавливаться на достигнутом и сейчас хотят добиться минимального уровня ошибок с показателем в 5,1%.

    Используемые сейчас речевые модели самообучающиеся. Причем они обучаются не только на удачных случаях распознавания сложных моментов речи, но и на неудачах — почти, как человек. С течением времени система снижает уровень ошибок в распознавании речи человека, улучшая общий результат.

    Эксперты считают, что компьютерные системы могут достичь новых рекордов — тот же уровень ошибок при распознавании речи в 5,1% пока что представляет собой вызов для ученых и инженеров. Причем обычные тесты не могут выявить все проблемные места в технологиях распознавания речи, которые могут встретиться при разработке специализированных систем. «Например, разные наборы данных могут быть более и менее чувствительными в зависимости от разных аспектов задачи», — говорит Йошуа Бенджио, один из специалистов, работающих над созданием алгоритмов распознавания речи.

    Кстати, результат оценки работы технологий распознавания речи во многом зависит еще и от системы оценки. Например, проценты ошибок, о которых говорилось выше, выводились исходя из стандартов методологии оценки SWITCHBOARD. Но есть и другая методика, которая называется Call Home. В этом случае оценивается количество ошибок в распознавании речи членов семьи при обсуждении случайных тем. Результат человека (уровень ошибок) — 6,8%. Максимальный же результат, полученный машинной системой — 10,3%. Очень неплохо, но уровня человека машины пока не достигли.



    «Способность распознавать речь так же, как и человек — это вызов для специалистов по машинному обучению, поскольку речь человека, в особенности, на случайные темы, чрезвычайно сложна», — говорит Джулия Гирчберг, профессор из Колумбийского университета. «Также проблемой является оценка уровня распознавания речи самим человеком, поскольку у разных людей очень разные способности в отношении понимания речи собеседников. Когда мы сравниваем человека и машину, очень важно принять во внимание следующее: эффективность алгоритма и метод оценки уровня ошибок».

    По мнению аналитиков из Gartner, достижения IBM могут предопределить будущее всей сферы искусственного интеллекта и «Интернета вещей».

    «С распространением цифровых помощников вроде Alexa или Google Assistant снижение уровня ошибок в распознавании речи человека может послужить стимулом для повсеместного использования речевых интерфейсов, как в обычных, так и в корпоративных приложениях», — говорит представитель Gartner Марк Ханг.
    Метки:
    • +13
    • 7,6k
    • 4
    IBM 84,94
    Компания
    Поделиться публикацией
    Комментарии 4
    • +5
      Такое достижение стало возможным благодаря объединению LSTM (Long Short Term Memory) и языковых моделей Wave Net с тремя другими акустическими моделями. В результате компьютер в некоторых случаях распознает речь даже с меньшим количеством ошибок, чем человек (здесь средний показатель составляет 5,9%)

      где ссылка на статью? Хабр — серьёзный ресурс, но пост представлен в виде маркетинговой лажи. Аналогичная фигня и в предыдущем посте, о чём и было указано в комментариях
      https://habrahabr.ru/company/ibm/blog/324826/
      • +5
        Я где-то месяцов 6 назад пробовал распознавание от IBM, результаты были субъективно хуже чем у гугла. Так что гугл понимает мои дефекты речи лучше чем IBM
        • +4
          Войс рекогнейшен текнолоджи:
          https://www.youtube.com/watch?v=l3TsKx89alU
          • 0
            Я прошу прощения, но Иешуа — это у Булгакова, Yoshua — это Йошуа.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое