Вышла новая версия мобильного приложения «Читатель» для iOS



    Немного предыстории
    Два года назад мы выпустили для iOS первую версию «Читателя» (Ссылка на iTunes). Это мобильное приложение, которое читает вслух загруженные в него книги и текстовые документы с помощью технологии синтеза русской речи. По сути дела, он позволяет озвучить в реальном времени любую книгу (.txt, .doc, .fb2). Книги озвучиваются прямо в мобильном устройстве, постоянный доступ в интернет при этом не нужен. За это время «Читатель» установили порядка 100 тысяч пользователей.


    Новое в приложении
    В «Читателе» обновился дизайн. Появилась поддержка последней версии iOS. Поработали над эргономикой и навигацией с учетом комментариев наших пользователей.
    Сделали возможность установки дополнительных голосов. Пока их только 4 (2 мужских и 2 женских), но в следующем обновлении мы планируем сделать поддержку уже семи голосов.
    Также мы добавили возможность работы со шрифтом – можно выбирать стиль шрифта и менять его размер.

    Небольшой видео-обзор того, что умеет «Читатель»



    Дальнейшие планы
    Мы планируем расширять функциональность и улучшать удобство использования, учитывая поступающие пожелания и комментарии наших клиентов в AppStore.
    В ближайших планах внедрение озвучки английского языка (до конца 2014 года), и поддержка казахского – она будет реализована в 2015 году.
    Сейчас ведется разработка «Читателя» под Android и мы планируем выложить его в Google Play уже к концу сентября. Также подготавливается plug-in приложение для легкого встраивания нашего синтеза в другие приложения и сторонние читалки.

    О технологии синтеза речи
    Наша технология синтеза речи использует оригинальную гибридную реализацию нескольких известных технологий: Unit Selection и статистическое моделирование речевых параметров на основе скрытых марковских моделей (HMM). Первая из них обеспечивает естественный тембр звучания синтезированного голоса, а вторая позволяет придать голосу необходимую интонационную, смысловую и эмоциональную окраску.
    Кроме естественности тембра и интонации голоса, синтезатор речи способен понимать смысл текста в зависимости от контекста, обеспечивая правильное произношение в неоднозначных ситуациях за счет широкого объема словаря, аббревиатур, сокращений и много другого.

    Полезная информация
    Недавно мы сделали SDK TTS под Android и iOS – так что теперь нашу технологию синтеза речи можно использовать в сторонних мобильных приложениях. Интересно? Пишите voicefabric@speechpro.ru
    Ещё есть возможность озвучивать интернет сайты и видео-ролики нашим синтезом, для этого мы запустили отдельный проект: VoiceFabric.ru

    P.S. Дополнил статью видео-обзором.
    Метки:
    Центр речевых технологий (ЦРТ) 40,21
    Компания
    Поделиться публикацией
    Реклама помогает поддерживать и развивать наши сервисы

    Подробнее
    Реклама
    Комментарии 20
    • +1
      Послушать примеры звучания голосов ЦРТ можно здесь.
      • 0
        Ужасные голоса, голос Анна от бесплатного движка RHVoice в разы лучше. Не пойму за что Вам платить.
        • 0
          Только вот в RHVoice нет голоса Анна. Из русских там только Александр, Елена и Ирина. Русских голосов с именем Анна вообще, насколько я помню, не существует. Anna есть только у Microsoft, в качестве встроенного SAPI5-совместимого движка, и это английский голос.
    • +3
      За казахский огромный рахмет!
      • 0
        «Появилась поддержка последней версии iOS», это вы про iOS8?

        Голоса хорошие, смущает только небольшое дрожание голоса в некоторых словах, например «синтезированный». Английский голос очень достойный.
        • +1
          Нет, на данный момент, последняя версия это iOS7. Но обещаем в сентябре быстро отреагировать на iOS8.
        • +2
          Последний раз пытался пользоваться TTS в начале 2000-х. По моим ощущениям — стало гораздо лучше, но wow эффекта все же нет.

          Где можно применить синтез речи?

          • Озвучивание информации на сайте
            Вы можете подключить наш «движок» синтеза речи к любому интернет сайту/web-порталу и озвучивать необходимую информацию вслух.


          Почему бы вам не встроить озвучивание этой страницы, вместо стихотворения? Была бы отличная демонстрация технологии.

          P.S.
          Виктория отказывается читать введённый (в форму) текст.
          Почему у Carol флаг GB, хотя говорит она с явным американским акцентом?
          • +1
            Carol действительно английский-американский язык.
            Но флаг США мы решили не ставить, т.к. американского языка нет.
            • 0
              В таких случаях, обычно, ставят флаг пополам, половинка GB и половинка US. Вполне понятно, что имелось в виду.
            • 0
              Мы сейчас переделываем сайт компании. Там будет встроен и синтез и распознавание голоса. Что бы все было наглядно и применимо.
            • +1
              Расскажите по какому алгоритму у вас ставятся ударения в неподготовленном тексте? Например, послушал яндекс новости на вашем rssradio.ru, в одном и том же тексте может звучать «полиция городА N» и «полиция гОрода N», Дениэл РЭдклифф и Дениэл РэдклИфф.
              • +1
                Это слова — омонимы.
                В русском языке их достаточно много.
                т.е. эти слова меняют свое ударение в зависимости от контекста, типа — замОк и зАмок.

                Синтез смотрит грамматический контекст: какую роль играет слово в предложении, узнает падеж, числительное.
                И в зависимости от этого принимает решение о том, где ставить ударение.

                Если слово без контекста или его не достаточно, то здесь как раз и могут появляться ошибки.
                т.е. RSS Radio прочитал отрывок новости или заголовок, где смысла было недостаточно для определение правильного ударения.
                • 0
                  В приведенном примере «полиция гОрода N» контекст вполне достаточен.
                  Приведите пример (я не нашел), в каком случае корректно выражение «полиция городА N».
              • 0
                Добавьте, пожалуйста, функцию авто-паузы через настраиваемый промежуток времени. А то засыпаю и пол книги за ночь проговаривается! В остальном отличное приложение!
              • 0
                А «солов’їною» умеет?
                Хотелось бы знать перед покупкой…
                • 0
                  Знаю, что на iOS Читатель вызвал большой интерес у слепых пользователей, но за всё время так и не была решена проблема доступности интерфейса для VoiceOver, так что люди были вынуждены уйти на другие продукты. В отношении Android версии планируется работа над поддержкой accessibility API?
                  • +4
                    Пользуясь случаем, хочу задать несколько вопросов о такой интересной теме.
                    1. Как вы записываете голоса? По слогам, целыми словами? Какой принцип?
                    2. Как вы боритесь с тем, что движки «читают» каждое слово четко по отдельности? В реальной речи мы очень часто произносим несколько слов сходу. Они у нас как будто склеены в одно длинное слово.
                    3. Сколько лет прошло между желанием создать такой софт и выходом версии 1.0? Через какие этапы вы прошли?
                    4. Какой у вас профессиональный бэкграунд?

                    Спасибо.
                    • +1
                      1.Записываем их в студии, просим диктора читать необходимые тексты как в обычной жизни. Синтез может быть «заточен» под определенные тексты, например — чтение художественной литературы, новости, объявления и т.д. Поэтому дикторы должны читать соответствующие вещи.
                      Если синтез сделан на художественной литературе, то чтение новостной ленты будет звучать «особенно».
                      Также очень важно следить за состоянием и настроением диктора. Что бы оно было одинаковое на протяжении всего чтения — а это месяц, а то и больше. Бывало, что мы отпускали диктора на выходные только потому, что у него было плохое настроение — а это сказывалось на голосе.

                      2.Не могу сам ответить, спрошу у наших ученых.

                      3.Здесь необходимо разделять работы.
                      Синтезом речи ЦРТ занимается уже 25 лет. Но, в основном, мы работали с SDK под Windows. Он сейчас работает много где, достаточно позвонить в Мегафон, РЖД, ФормулаКино и т.д.
                      Портирование SDK с Windows на iOS — это отдельная работа.
                      И также, совершенно отдельная работа — это создание читалки, которая умеет работать с нашим SDK.
                      Сроки намеренно не называю — секрет.

                      4.Профессиональный бэкграунд? В синтезе речи? Наверное, сейчас, самый большой в России. У нас несколько десятков ученых и научных сотрудников. А несколько лет назад мы создали собственную кафедру речевых технологий на базе университета ИТМО (СПб)

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое