Comments / Profile of sterling239 / Habr

How to become an author

Гриша Стерлинг @sterling239

Speech processing

Profile Publications 2Comments 22Bookmarks

Как я сделал синтез своего голоса

sterling239 Feb 20 2023 at 20:27

Там фишка в данных, их мы конечно не выложим. А код обычной модельки есть на https://github.com/sberdevices/qtacotron, он несложно адаптируется под русский язык на буквах. В общем из коробки не заработает, но результат окупит потраченное время ;)

-3

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 29 2021 at 19:36

кстати у тех же авторов, которые придумали такотрон, была статья про speak fluently in foreign language, мы года полтора назад что-то попробовали, и наши голоса научились разговаривали по-английски, но со странным акцентом. История отложилась, но когда-нибудь точно докрутим качество до приличного

0

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 29 2021 at 17:40

привет! спасибо за вопросы :)

1. Мы пользовались MFA (montreal forced aligner) со своей калдевой моделькой, чтобы посчитать тайминги слов, и найти места в предложениях, где есть паузы (длительность тишины больше x мс). На инференсе это действительно является частью препроцессинга текста (классифицируем каждый токен, нужно ли после него поставить паузу), запускается до такотрона, а в него подаем текст уже с токенами пауз

2. Пробовали, и там шило на мыло. Сложность фонемного синтеза в том, чтобы построить качественную g2p модель. К сожалению, они ошибаются примерно также часто, как и такотрон, обученный на графемах. Вообще сейчас мы движемся в сторону гибридного синтеза, когда большинство слов озвучиваются как есть, а если синтез в каком-то слове ошибается, мы пишем текстом его транскрипцию (типа интернет -> интернэт)

3, 5. Решили не нагружать текст деталями :) Выход такотрона полностью определяется вокодером, который потом озвучивает спектрограммы. Мы используем LPCNet, для него нужны особенные фичи (20-мерные bark-спектрограммы и 2 отдельных фичи — pitch и pitch gain, в сумме 22), и тако их предсказывает. Про вокодеры мы вообще планируем отдельный большой текст, там все подробно расскажем

4. Размерность текст энкодера оригинального тако = 512. При добавлении новых модулей нам было важно, чтобы по скорости все было не хуже, поэтому, добавив topic embedding и word labels embedding, нам пришлось уменьшить text encoder. Мы уменьшили его до 384, и к нему конкатим дополнительные эмбеддинги (2 по 64). Все фичи делились на 5 бинов по 20%. Среди фичей — громкость (не честная, а просто std вейвформы слова, но этого хватает), скорость (тут сложнее: у нас есть средние длительности произнесения каждой буквы, и мы считаем ожидаемую длительность произнесения слова и фактическую; фича loudness — это отношение действительной к ожидаемой), и три фичи про pitch (наклоны и среднее). Word labels predictor для каждого слова предсказывает бин для каждой из 5 фичей (то есть размерность его выхода [1, num_tokens, 5]), потом для каждой фичи есть свой эмбеддинг слой (размерностями где-то 8, где-то 16), мы их конкатим и получаем финальные 64. Ну и в сумме получается 512 :) И сразу отвечу на возможный вопрос: конкатить оказывается лучше, чем суммировать

0

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 29 2021 at 01:32

Все дикторы работают по-разному, но в среднем это один час хороших данных за 4-5 часов работы диктора в студии

+1

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 27 2021 at 01:37

Очень много:) После всех чисток 20-40 часов примерно

+1

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 26 2021 at 15:55

Про воспроизводимость: конечное качество вокодера зависит не только от самого вокодера, но и просто от голоса, на котором он обучается. LPCNet например на мужских голосах работает хуже, чем на женских (разница между ground truth и кописинтезом для мужских голосов на слух больше), или на одном голосе лучше LPCNet, а на другом — WaveGlow. Но еще и результаты из статей иногда не воспроизводятся, ParallelWavegan например у нас совсем плохо озвучивал

+1

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 26 2021 at 15:13

Про GAN и в том числе MelGAN можете прочитать ответ выше. Мы много чего пробовали, но там проблемы с воспроизводимостью. В наших экспериментах single speaker LPCNet работает наиболее качественно из тех вокодеров, что могут держать реалтайм на 1 ядре цпу. С мультиспикером еще что-то пробовали, но работает хуже. А вообще про вокодеры тоже напишем статью, там было много подводных камней типа замены подсчета pitch от алгоритма Ына на Reaper

+2

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

sterling239 Mar 25 2021 at 19:37

привет! Синтез можно послушать в устройствах Сбера (SberBox и SberPortal) и в мобильных приложениях СберБанк Онлайн и Сбер Салют

0

Как стать датасайнтистом, если тебе за 40 и ты не программист

sterling239 Oct 24 2018 at 17:02

Это уже баян. Дата-сатанисты уже уходят, дата-сталинисты не все поймут. А в одс на новый год обещали подарки от дата-санта-клауса

+10

Я смоделировал цену биткойна за весь 2018 год. Вы не поверите в результат (прим. перевод. и будете правы)

sterling239 Jan 26 2018 at 17:56

«В идеальном мире ежедневный прирост стоимости финансовых активов будет укладываться в нормальное распределение»

Ну только не нормальное, а логнормальное. Дальше не вчитывался

0

Классификация звуков с помощью TensorFlow

sterling239 Nov 29 2017 at 12:23

Пост навеян конкурсом на каггле?

+2

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

sterling239 Oct 20 2017 at 17:51

А, увидел рекламу курсов и все стало ясно

-2

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым

sterling239 Oct 20 2017 at 17:50

Кстати, всегда удивлялся, почему люди, которые рассказывают нам о том, как миру нужны [профессиянейм], сами занимаются популяризацией/преподаванием/лекциями, а не [профессиянейм]

-1

Ищем сокровища в исходном коде Aladdin

sterling239 Oct 18 2017 at 18:03

так, я пошел качать эмулятор сеги

0

Дайджест свежих материалов из мира фронтенда за последнюю неделю №282 (25 сентября — 1 октября 2017)

sterling239 Oct 2 2017 at 12:55

Увидел 282 в названии и подумал, что про тут про насилие. Затем увидел про CSS и окончательно в этом убедился

0

Управление фермой Android-устройств. Лекция в Яндексе

sterling239 Sep 18 2017 at 02:56

Ну едрить вы закликбейтили

0

Blockchain Life 2017: от золотой пиццы к криптовалютной лихорадке

sterling239 Sep 13 2017 at 16:41

Поздравляем! Вы стали автором 1000000000000000000000000-го поста про блокчейн и бетховен! Чтобы забрать приз ЖМИ!!!

0

Открытые проблемы в области распознавания речи. Лекция в Яндексе

sterling239 Sep 11 2017 at 12:29

А как синтез речи в яндексе происходит? Насколько я знаю, есть два с половиной подхода: компоновать заранее записанные фонемы, генерировать спектрограмму, и работающий в 100 раз медленнее реалтайма wavenet. Минус первого — безэмоциональность, минус второго — «железность» звука. Что яндекс делает в этом направлении?

0

PyTorch — ваш новый фреймворк глубокого обучения

sterling239 Sep 4 2017 at 13:30

А сравнение фрйемворков на каких-нибудь бенчмарках кто-нибудь проводил?

0

Как легко расстаться с $1000

sterling239 Aug 25 2017 at 16:23

По заголовку подумал, что пост про майнинг

+4

1