30,93
рейтинг
15 августа 2014 в 15:08

Разное → Вышла новая версия мобильного приложения «Читатель» для iOS



Немного предыстории
Два года назад мы выпустили для iOS первую версию «Читателя» (Ссылка на iTunes). Это мобильное приложение, которое читает вслух загруженные в него книги и текстовые документы с помощью технологии синтеза русской речи. По сути дела, он позволяет озвучить в реальном времени любую книгу (.txt, .doc, .fb2). Книги озвучиваются прямо в мобильном устройстве, постоянный доступ в интернет при этом не нужен. За это время «Читатель» установили порядка 100 тысяч пользователей.


Новое в приложении
В «Читателе» обновился дизайн. Появилась поддержка последней версии iOS. Поработали над эргономикой и навигацией с учетом комментариев наших пользователей.
Сделали возможность установки дополнительных голосов. Пока их только 4 (2 мужских и 2 женских), но в следующем обновлении мы планируем сделать поддержку уже семи голосов.
Также мы добавили возможность работы со шрифтом – можно выбирать стиль шрифта и менять его размер.

Небольшой видео-обзор того, что умеет «Читатель»



Дальнейшие планы
Мы планируем расширять функциональность и улучшать удобство использования, учитывая поступающие пожелания и комментарии наших клиентов в AppStore.
В ближайших планах внедрение озвучки английского языка (до конца 2014 года), и поддержка казахского – она будет реализована в 2015 году.
Сейчас ведется разработка «Читателя» под Android и мы планируем выложить его в Google Play уже к концу сентября. Также подготавливается plug-in приложение для легкого встраивания нашего синтеза в другие приложения и сторонние читалки.

О технологии синтеза речи
Наша технология синтеза речи использует оригинальную гибридную реализацию нескольких известных технологий: Unit Selection и статистическое моделирование речевых параметров на основе скрытых марковских моделей (HMM). Первая из них обеспечивает естественный тембр звучания синтезированного голоса, а вторая позволяет придать голосу необходимую интонационную, смысловую и эмоциональную окраску.
Кроме естественности тембра и интонации голоса, синтезатор речи способен понимать смысл текста в зависимости от контекста, обеспечивая правильное произношение в неоднозначных ситуациях за счет широкого объема словаря, аббревиатур, сокращений и много другого.

Полезная информация
Недавно мы сделали SDK TTS под Android и iOS – так что теперь нашу технологию синтеза речи можно использовать в сторонних мобильных приложениях. Интересно? Пишите voicefabric@speechpro.ru
Ещё есть возможность озвучивать интернет сайты и видео-ролики нашим синтезом, для этого мы запустили отдельный проект: VoiceFabric.ru

P.S. Дополнил статью видео-обзором.
Автор: @DemiurgeSerge

Комментарии (20)

  • +1
    Послушать примеры звучания голосов ЦРТ можно здесь.
    • 0
      Ужасные голоса, голос Анна от бесплатного движка RHVoice в разы лучше. Не пойму за что Вам платить.
      • 0
        Только вот в RHVoice нет голоса Анна. Из русских там только Александр, Елена и Ирина. Русских голосов с именем Анна вообще, насколько я помню, не существует. Anna есть только у Microsoft, в качестве встроенного SAPI5-совместимого движка, и это английский голос.
  • +3
    За казахский огромный рахмет!
  • 0
    «Появилась поддержка последней версии iOS», это вы про iOS8?

    Голоса хорошие, смущает только небольшое дрожание голоса в некоторых словах, например «синтезированный». Английский голос очень достойный.
    • +1
      Нет, на данный момент, последняя версия это iOS7. Но обещаем в сентябре быстро отреагировать на iOS8.
  • +2
    Последний раз пытался пользоваться TTS в начале 2000-х. По моим ощущениям — стало гораздо лучше, но wow эффекта все же нет.

    Где можно применить синтез речи?

    • Озвучивание информации на сайте
      Вы можете подключить наш «движок» синтеза речи к любому интернет сайту/web-порталу и озвучивать необходимую информацию вслух.


    Почему бы вам не встроить озвучивание этой страницы, вместо стихотворения? Была бы отличная демонстрация технологии.

    P.S.
    Виктория отказывается читать введённый (в форму) текст.
    Почему у Carol флаг GB, хотя говорит она с явным американским акцентом?
    • +1
      Carol действительно английский-американский язык.
      Но флаг США мы решили не ставить, т.к. американского языка нет.
      • 0
        В таких случаях, обычно, ставят флаг пополам, половинка GB и половинка US. Вполне понятно, что имелось в виду.
    • 0
      Мы сейчас переделываем сайт компании. Там будет встроен и синтез и распознавание голоса. Что бы все было наглядно и применимо.
  • +1
    Расскажите по какому алгоритму у вас ставятся ударения в неподготовленном тексте? Например, послушал яндекс новости на вашем rssradio.ru, в одном и том же тексте может звучать «полиция городА N» и «полиция гОрода N», Дениэл РЭдклифф и Дениэл РэдклИфф.
    • +1
      Это слова — омонимы.
      В русском языке их достаточно много.
      т.е. эти слова меняют свое ударение в зависимости от контекста, типа — замОк и зАмок.

      Синтез смотрит грамматический контекст: какую роль играет слово в предложении, узнает падеж, числительное.
      И в зависимости от этого принимает решение о том, где ставить ударение.

      Если слово без контекста или его не достаточно, то здесь как раз и могут появляться ошибки.
      т.е. RSS Radio прочитал отрывок новости или заголовок, где смысла было недостаточно для определение правильного ударения.
      • 0
        В приведенном примере «полиция гОрода N» контекст вполне достаточен.
        Приведите пример (я не нашел), в каком случае корректно выражение «полиция городА N».
  • 0
    Добавьте, пожалуйста, функцию авто-паузы через настраиваемый промежуток времени. А то засыпаю и пол книги за ночь проговаривается! В остальном отличное приложение!
    • 0
      Хорошая идея, записал.
  • 0
    А «солов’їною» умеет?
    Хотелось бы знать перед покупкой…
  • 0
    Знаю, что на iOS Читатель вызвал большой интерес у слепых пользователей, но за всё время так и не была решена проблема доступности интерфейса для VoiceOver, так что люди были вынуждены уйти на другие продукты. В отношении Android версии планируется работа над поддержкой accessibility API?
  • +4
    Пользуясь случаем, хочу задать несколько вопросов о такой интересной теме.
    1. Как вы записываете голоса? По слогам, целыми словами? Какой принцип?
    2. Как вы боритесь с тем, что движки «читают» каждое слово четко по отдельности? В реальной речи мы очень часто произносим несколько слов сходу. Они у нас как будто склеены в одно длинное слово.
    3. Сколько лет прошло между желанием создать такой софт и выходом версии 1.0? Через какие этапы вы прошли?
    4. Какой у вас профессиональный бэкграунд?

    Спасибо.
    • +1
      1.Записываем их в студии, просим диктора читать необходимые тексты как в обычной жизни. Синтез может быть «заточен» под определенные тексты, например — чтение художественной литературы, новости, объявления и т.д. Поэтому дикторы должны читать соответствующие вещи.
      Если синтез сделан на художественной литературе, то чтение новостной ленты будет звучать «особенно».
      Также очень важно следить за состоянием и настроением диктора. Что бы оно было одинаковое на протяжении всего чтения — а это месяц, а то и больше. Бывало, что мы отпускали диктора на выходные только потому, что у него было плохое настроение — а это сказывалось на голосе.

      2.Не могу сам ответить, спрошу у наших ученых.

      3.Здесь необходимо разделять работы.
      Синтезом речи ЦРТ занимается уже 25 лет. Но, в основном, мы работали с SDK под Windows. Он сейчас работает много где, достаточно позвонить в Мегафон, РЖД, ФормулаКино и т.д.
      Портирование SDK с Windows на iOS — это отдельная работа.
      И также, совершенно отдельная работа — это создание читалки, которая умеет работать с нашим SDK.
      Сроки намеренно не называю — секрет.

      4.Профессиональный бэкграунд? В синтезе речи? Наверное, сейчас, самый большой в России. У нас несколько десятков ученых и научных сотрудников. А несколько лет назад мы создали собственную кафедру речевых технологий на базе университета ИТМО (СПб)

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное