Reddit
Трансформеры с селективным доступом к ранним представлениям
Авторы представляют SATFormer — архитектуру трансформеров, которая использует контекстно-зависимые вентили для избирательного повторного использования представлений из первых слоев. Метод улучшает баланс эффективности и производительности, показывая лучшие результаты на задачах поиска и снижая валидационную потерю по сравнению с базовыми трансформерами и аналогами вроде DenseFormer.
score 14r/MachineLearning