Назад к дайджесту
Reddit

Трансформеры с селективным доступом к ранним представлениям

Авторы представляют SATFormer — архитектуру трансформеров, которая использует контекстно-зависимые вентили для избирательного повторного использования представлений из первых слоев. Метод улучшает баланс эффективности и производительности, показывая лучшие результаты на задачах поиска и снижая валидационную потерю по сравнению с базовыми трансформерами и аналогами вроде DenseFormer.

score 14r/MachineLearning