Pull to refresh

О взаимопонимании Google и Microsoft

Reading time3 min
Views2.5K

Нет, этот пост не будет очередной уткой на тему всяких юридических споров, новостей в духе «главный босс одной компании обозвал другую» и домыслов о заговоре. Речь пойдет о движках распознавании речи и генерации речи из текста, предоставляемых компаниями Google и Microsoft, их внутренней совместимости и взаимной дружбе.

Как известно, и Google и Microsoft имеют средства распознавания речи и генерации речи на основе текста. У Гугла эти инструменты онлайновые, используются для перевода и поиска, у Майкрософта — встроенные в операционную систему, используются как средства дополнительного взаимодействия с интерфейсом. Попробуем скрестить бульдога с носорогом сравнить, насколько хорошо эти вещи работают друг с другом. Для этого я возьму 10 довольно известных англоязычных фраз (я вообще не питаю иллюзий по поводу русского языка), сгенерим из них аудиофайлы средствами движков обеих компаний и попробуем распознать полученные файлы (опять таки — двумя способами).

Используемые механизмы

Google генерация аудио по тексту: Google переводчик
Google генерация текста по аудио: программа многоуважаемого Yakhnev, которую пришлось чуть-чуть подправить (да здравствует opensource).

Microsoft генерация аудио по тексту: движок Anna
Microsoft генерация текста по аудио: Windows Speech Recognition

Тестовые фразы

  1. May the Force be with you.
  2. A martini. Shaken, not stirred.
  3. History is the version of past events that people have decided to agree upon.
  4. That's one small step for a man, one giant leap for mankind
  5. Do the right thing. It will gratify some people and astonish the rest.
  6. I have a dream that one day this nation will rise up.
  7. Elementary, my dear Watson.
  8. Life was like a box of chocolates: you never know what you're gonna get.
  9. Behind every great fortune there is a crime.
  10. Genius is one percent inspiration and ninety-nine percent perspiration.

Кому скучно — можно повспоминать откуда фразы (только без Гугла — а то не интересно).

Итак, вот получившиеся аудиофайлы.

Результаты распознавания

Вот как Google распознал аудио, которое сам же сгенерировал:
  1. may the force be with you — 100%
  2. a martini shaken not stirred — 100%
  3. ошибка 500 — 0 %
  4. that's 1 small step for man 1 giant leap for mankind — 92%
  5. do the right thing it will gratify some people and diamonds direct — 77%
  6. I have a dream that 1 day this nation will rise up — 100%
  7. elementary my dear watson — 100%
  8. life was like a box of chocolates you never know what you're gonna get — 100%
  9. behind every great fortune terrace brookline — 50%
  10. genius is 1 percent inspiration and 99 percent perspiration — 100%

Средний результат: 82%. Следует отметить, что Google вообще не смог распознать третью фразу — выдал ошибку.

Вот как Google распознал аудио, которое сгенинировал голосовй движок от Microsoft:
  1. may the force be with you — 100%
  2. m martini shaken not stirred — 80%
  3. history is the version of past few bands that people have decided to agree upon — 93%
  4. that's 1 small step for man 1 giant leap for mankind — 92%
  5. do the right thing it will gratify some people and astonish arrest — 85%
  6. I have a dream that 1 day this nation will rise up — 100%
  7. elementary my dear watson — 100%
  8. life would like a box of chocolates you never know what you're gonna get — 93%
  9. behind every great fortune there is a crime — 100%
  10. genius is 1 percent inspiration and 99 percent perspiration — 100%


Средний результат: 94%
Гугл понимает Microsoft на 13% лучше самого себя!.
Забавно, согласитесь. Хотя, если подумать — ничего странного в этом нет. Майкрософтовская Анна звучит более строго, железно, делает паузы между словами и на глаз ухо человека звучит более механизированно, чем переводчик от Гугла. Так что закономерно, что более «человечный» голос Гугла распознаётся хуже.

Что же касается попытки распознавания аудиофайлов средствами Windows — меня ждал провал. Во-первых, мой русскоязычный Windows этого не умеет вообще (но это мелочи), а во-вторых, распознавание голоса от Microsoft работает по совершенно другим принципам. Оно построено на механизме обучения и становится тем лучше, чем дольше вы будете учить компьютер Вас понимать. Я не придумал, стоит ли в этом эксперименте вообще не обучать движок (но в этом случае я даже не понимаю как его запустить) или обучать его «до посинения», пока не будет распознаваться всё — и решил такой эксперимент не проводить. Если кому — нибудь будет интересно это сделать — еще раз дам ссылку на тестовые аудиофайлы и статейку о том, как сделать программу, распознающую текст из аудиофайлов, а не микрофонного входа.

Поскольку эксперимент получился сфокусированным на технологиях Google, публикую топик в его блог.
Tags:
Hubs:
Total votes 72: ↑53 and ↓19+34
Comments26

Articles