vladbalv Oct 18 2022 at 10:01

Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

10 min

2.6K

ГК ЛАНИТ corporate blogMachine learning*Natural Language Processing*

Translation

+29

Comments 3

kitaisky Oct 18 2022 at 18:17

Это все конечно интересно, но на практике упирается в то, какую архитектуру выберут и предобучат большие дяди, и после этого будут использовать для решения своих задач все остальные.

vladbalv Oct 18 2022 at 23:16

не совсем согласен. многие из этих моделей есть в transformers в huggingface - их можно брать, самостоятельно обучать или дообучать. или например подсмотреть код и реализовать аналогичную архитектуру, но не из 10 слоев, а из 3, и тогда намного проще ее будет обучить
некоторые обучают маленькие берты (см. rubert-tiny) даже на google colab :)

kitaisky Oct 19 2022 at 07:40

Именно что "самостоятельно" обучать - основная проблема таки как раз в этом. Про дистилляцию -возможно, но таки опять же тут сетку нужно учить с нуля. Возмьжно небольшие сетки на такой архитектуре могут хорошо подходить для решения кааих-то задач, не связанных с языковым моделязыковым моделированием, гдк нужны гигантские объемы данных - я бы с удовольствием почитал о применении указанных выше архитектур к каким-нибудь табличкам, рядам и прочему.