NikitaMartynov Oct 6 2023 at 10:49

SAGE: коррекция орфографии с помощью языковых моделей

Medium

18 min

7.6K

SberDevices corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

+31

Comments 6

alexanderkuk Oct 6 2023 at 19:04

Какая производительность? Интересно сравнение с другими решениями. Какое надо железо. Сравнить кроме качества производительность и требования к железу
Что думаете про sequence tagging вместо seq2seq? Делать по аналогии с Gector Grammarly
Примеры предложений где ваше решение справляется а другие ошибаются. Какие это случаи? В таблице большая разница precision, остальные решения исправляют лишнее?

NikitaMartynov Oct 9 2023 at 12:03

Посимвольная производительность в секунду для всех четырех моделей из нашего решения посчитана в статье (на одной A100), там же указаны размеры моделей и соответствующее потребление памяти при загрузке модели на карту; инференс моделей возможен на A100 40-80Gb, V100 32Gb, и T4 из колаба; производительность открытых решений указана тут (правда в предложениях в секунду); сделаем полную сравнительную табличку по производительности и поместим её на страничку в реп;
На этом этапе пока что фокусируемся именно на seq2seq, потому что хотим исследовать возможность решать editing tasks в генеративном режиме, впоследствии будем проводить эксперименты ещё и с sequence tagging;
С учётом большого количества ошибок и разнообразия их типов тяжело производить детальный анализ, поэтому сейчас мы разрабатываем отдельный модуль по валидации спеллчекеров и лингвистическую классификацию ошибок по разным доменам, модуль как раз будет выдавать статистику перфоманса по разным типам; на текущий момент нельзя выделить каких-то очевидных классов, кроме текстов с большим количеством несловарного языка, где все остальные решения исправляют не то, что нужно;

zodder Oct 23 2023 at 03:06

А на RTX 4090 есть смысл пробовать? Какая в этом случае ожидается скорость?

niccolo2019 Oct 6 2023 at 22:38

Из простых задач, с которыми часто приходится сталкиваться пользователям - добавьте в тест задание на автоматическое исправление распознанного текста - например художественной или научно-популярной книги.

NikitaMartynov Oct 9 2023 at 12:48

Вы имеете в виду добавить в бенчмарк для спеллчека датасеты по исправлению текста, полученного через asr / ocr?

niccolo2019 Oct 9 2023 at 15:03

Ну с бенчмарками, спеллчеками, датасетами лучше вообще про русский язык ничего не писать...

А в качестве одной из наиболее часто встречающихся задач добавить в качестве теста проверку орфографии и очистку от мусора распознанного текста, например небольшой книжки, журнала, вполне можно было бы.