С момента обнародования информации о них в 2017 году, нейросети архитектуры типа "трансформер" применялись к задачам различного толка, от генерирования текстов в стиле фэнтези до написания музыкальных гармоний. Что важно, высокое качество работы «трансформеров» показало, что в применении к последовательным задачам, например, к моделированию языка и переводу, нейросети с прямым распространением могут быть настолько же эффективными, как и рекуррентные. И хотя популярность трансформера и других моделей с прямым распространением, используемых в последовательных задачах, растёт, их архитектуры почти всегда создаются вручную, в отличие от области компьютерного зрения, где подходы автоматического машинного обучения (АОМ) уже обнаружили передовые модели, опережающие те, что подвергались ручной настройке. Естественно, нас интересовало, может ли применение АОМ к последовательным задачам достичь такого же успеха.
Применение автоматического машинного обучения к нейросетям с архитектурой «трансформер»
С момента обнародования информации о них в 2017 году, нейросети архитектуры типа "трансформер" применялись к задачам различного толка, от генерирования текстов в стиле фэнтези до написания музыкальных гармоний. Что важно, высокое качество работы «трансформеров» показало, что в применении к последовательным задачам, например, к моделированию языка и переводу, нейросети с прямым распространением могут быть настолько же эффективными, как и рекуррентные. И хотя популярность трансформера и других моделей с прямым распространением, используемых в последовательных задачах, растёт, их архитектуры почти всегда создаются вручную, в отличие от области компьютерного зрения, где подходы автоматического машинного обучения (АОМ) уже обнаружили передовые модели, опережающие те, что подвергались ручной настройке. Естественно, нас интересовало, может ли применение АОМ к последовательным задачам достичь такого же успеха.