Pull to refresh
1
0
Send message

Хоть бы что-то сложнее формочек умело писать без галлюцинаций вы такое хотите) Сказали вам приходите завтра, завтра всё будет, а вы как не придёте всё сегодня и сегодня.

Работал не так давно с whisper, очищал LJ Speech Dataset, идея была в том чтобы искать несовпадения между текстом из датасета и STT по аудио, oh boy.. Для начала борьба с генерацией чисел вместо слов и обрыв генерации если сказали слово, текст которого является спец символом, например, фунт стерлингов, поковырялся с токинайзером, сделал. А вот дальше следим за руками этой "превосходящей человеческий слух модели" (некоторые примеры под спойлером). Модель пропускает слова, генерит отсебятину, повторяет какой-то токен пока не кончатся символы и предсказать в каких случаях она себя так будет вести у меня не получилось. Насколько я помню, она использует какой-то общий кусок с GPT3 поэтому периодически "умничает" добавляя слова или целые предложения, которых и близко не было в аудио.

Hidden text

Information

Rating
Does not participate
Registered
Activity