kshmax Sep 3 2021 at 09:01

Разделение звука в видеозаписях

8 min

8.1K

Machine learning*Artificial Intelligence

+15

Comments 12

antirek Sep 3 2021 at 10:21

А есть проект по разделению записи разговора двух участников на две дорожки, чтобы каждый участник был на отдельной дорожке? просто аудиозапись, без видео

kshmax Sep 3 2021 at 12:56

Сам я с такой задачей не работал, это Voice/Speech separation, можно посмотреть решения https://paperswithcode.com/task/speech-separation или есть свежая статья от фейсбука https://arxiv.org/pdf/2003.01531.pdf

antirek Sep 3 2021 at 18:16

Спасибо, почитал и погуглил. У гугла оказывается API есть https://cloud.google.com/speech-to-text/docs/multiple-voices называют такое разделение Speaker diarization

Serafim Sep 3 2021 at 10:38

Было бы клево удалить закадровый смех из ситкомов

propell-ant Sep 3 2021 at 12:01

Во всех примерах два источника: это ограничение метода, или несколько источников (3-5) тоже могут быть успешно разделены?

kshmax Sep 3 2021 at 12:59

Два источника - это гиперпараметр обучения. Можно было бы смешивать 3, 4 и т.д. источника и разделять на них, но это потребовало значительно больше ресурсов. Демки, где два видео смешиваются и разделяются, завязаны на число источников при обучении.

При локализации источников звука сетка строится для одного видео и из этой сетки можно выделять больше двух источников. Тогда ненулевые маски были бы в трех разных областях кадра, например.

bak Sep 3 2021 at 15:32

1) Видео действительно помогает сетке лучше разделять звуки? Сравнивали сетки обученные с видео и без, насколько большая разница?

2) Кажется датасет для разделения (без видео) легко намайнить путем искусственного смешивания звуков. Не пробовали такой подход?

kshmax Sep 3 2021 at 20:36

Архитектура из статьи без кадров не работает. Если убрать кадры, то это будет UNet для спектрограмм. Так делают, но качество сам не сравнивал. В данном случае идея не только в разделении, но и в нахождении источников звука в кадре, а для этого нужны визуальные данные.

Это так. Можно даже взять датасеты, которые я использовал и достать из них дорожки. Но так я не делал тоже, потому что основной целью исследования было не разделение звуков как таковых, а аудио визуальное соответствие источников звука

propell-ant Sep 5 2021 at 19:09

Возможно, я рассуждаю по-диллетантски, но кажется что видеоряд нужен для классификации источников звука, для разделения как такового. То есть без видеоряда в обучающей выборке понадобилось бы предоставить соответствие между звуком и набором характеристик источника звука (автопогрузчик стоит или едет, корова жует или мычит, на гитаре играют или барабанят по ней пальцами) в текстовом виде. А здесь на видеоряде отрабатывает классификатор изображений, ему всё равно как называются объекты, главное что он оценивает величину различий (похоже-не похоже).

kshmax Sep 6 2021 at 10:37

Да, идея как раз такая. Модель оценивает, что находится в кадре и на основе этой информации извлекает из звуковой смеси те звуки, которые, по мнению модели, издаются объектом на картинке. При этом в режиме применения модели такая "оценка" делается для разных участков видео и по объекту в этом участке модель решает, какую часть звуковой дорожки нужно взять, чтобы изолировать звук. Это как раз демонстрируется на рисунках с подписью "локализация звука": сетка 14x14 и каждая ячейка - небольшой участок кадра, в котором модель оценивает, что находится внутри и на основе этого выделяет звук из общей дорожки

faxenoff Sep 3 2021 at 23:18

А можно ли этим сделать ремастер Metallica?
У них самих это не получается.

kshmax Sep 6 2021 at 10:41

С помощью модели не получится повысить качество аудио. Модель во время разделения, скорее наоборот, может добавлять артефакты и "протечки", что, кстати, заметно на некоторых демках.

Для такой задачи, как Вы описываете, можно брать аудиозаписи в хорошем качестве, специально понижать и искажать их, а затем обучать модель на восстановление к исходному качеству. Но это уже другая история :)

Show the best of all time