Comments 6
Какая производительность? Интересно сравнение с другими решениями. Какое надо железо. Сравнить кроме качества производительность и требования к железу
Что думаете про sequence tagging вместо seq2seq? Делать по аналогии с Gector Grammarly
Примеры предложений где ваше решение справляется а другие ошибаются. Какие это случаи? В таблице большая разница precision, остальные решения исправляют лишнее?
Посимвольная производительность в секунду для всех четырех моделей из нашего решения посчитана в статье (на одной A100), там же указаны размеры моделей и соответствующее потребление памяти при загрузке модели на карту; инференс моделей возможен на A100 40-80Gb, V100 32Gb, и T4 из колаба; производительность открытых решений указана тут (правда в предложениях в секунду); сделаем полную сравнительную табличку по производительности и поместим её на страничку в реп;
На этом этапе пока что фокусируемся именно на seq2seq, потому что хотим исследовать возможность решать editing tasks в генеративном режиме, впоследствии будем проводить эксперименты ещё и с sequence tagging;
С учётом большого количества ошибок и разнообразия их типов тяжело производить детальный анализ, поэтому сейчас мы разрабатываем отдельный модуль по валидации спеллчекеров и лингвистическую классификацию ошибок по разным доменам, модуль как раз будет выдавать статистику перфоманса по разным типам; на текущий момент нельзя выделить каких-то очевидных классов, кроме текстов с большим количеством несловарного языка, где все остальные решения исправляют не то, что нужно;
Из простых задач, с которыми часто приходится сталкиваться пользователям - добавьте в тест задание на автоматическое исправление распознанного текста - например художественной или научно-популярной книги.
Вы имеете в виду добавить в бенчмарк для спеллчека датасеты по исправлению текста, полученного через asr / ocr?
SAGE: коррекция орфографии с помощью языковых моделей