Pull to refresh

Comments 12

А есть проект по разделению записи разговора двух участников на две дорожки, чтобы каждый участник был на отдельной дорожке? просто аудиозапись, без видео

Было бы клево удалить закадровый смех из ситкомов

Во всех примерах два источника: это ограничение метода, или несколько источников (3-5) тоже могут быть успешно разделены?

Два источника - это гиперпараметр обучения. Можно было бы смешивать 3, 4 и т.д. источника и разделять на них, но это потребовало значительно больше ресурсов. Демки, где два видео смешиваются и разделяются, завязаны на число источников при обучении.

При локализации источников звука сетка строится для одного видео и из этой сетки можно выделять больше двух источников. Тогда ненулевые маски были бы в трех разных областях кадра, например.

1) Видео действительно помогает сетке лучше разделять звуки? Сравнивали сетки обученные с видео и без, насколько большая разница?

2) Кажется датасет для разделения (без видео) легко намайнить путем искусственного смешивания звуков. Не пробовали такой подход?

Архитектура из статьи без кадров не работает. Если убрать кадры, то это будет UNet для спектрограмм. Так делают, но качество сам не сравнивал. В данном случае идея не только в разделении, но и в нахождении источников звука в кадре, а для этого нужны визуальные данные.

Это так. Можно даже взять датасеты, которые я использовал и достать из них дорожки. Но так я не делал тоже, потому что основной целью исследования было не разделение звуков как таковых, а аудио визуальное соответствие источников звука

Возможно, я рассуждаю по-диллетантски, но кажется что видеоряд нужен для классификации источников звука, для разделения как такового. То есть без видеоряда в обучающей выборке понадобилось бы предоставить соответствие между звуком и набором характеристик источника звука (автопогрузчик стоит или едет, корова жует или мычит, на гитаре играют или барабанят по ней пальцами) в текстовом виде. А здесь на видеоряде отрабатывает классификатор изображений, ему всё равно как называются объекты, главное что он оценивает величину различий (похоже-не похоже).

Да, идея как раз такая. Модель оценивает, что находится в кадре и на основе этой информации извлекает из звуковой смеси те звуки, которые, по мнению модели, издаются объектом на картинке. При этом в режиме применения модели такая "оценка" делается для разных участков видео и по объекту в этом участке модель решает, какую часть звуковой дорожки нужно взять, чтобы изолировать звук. Это как раз демонстрируется на рисунках с подписью "локализация звука": сетка 14x14 и каждая ячейка - небольшой участок кадра, в котором модель оценивает, что находится внутри и на основе этого выделяет звук из общей дорожки

А можно ли этим сделать ремастер Metallica?
У них самих это не получается.

С помощью модели не получится повысить качество аудио. Модель во время разделения, скорее наоборот, может добавлять артефакты и "протечки", что, кстати, заметно на некоторых демках.

Для такой задачи, как Вы описываете, можно брать аудиозаписи в хорошем качестве, специально понижать и искажать их, а затем обучать модель на восстановление к исходному качеству. Но это уже другая история :)

Sign up to leave a comment.

Articles