Reddit6 мая 2026 г.

Трансформеры с селективным доступом к ранним представлениям

Авторы представляют SATFormer — архитектуру трансформеров, которая использует контекстно-зависимые вентили для избирательного повторного использования представлений из первых слоев. Метод улучшает баланс эффективности и производительности, показывая лучшие результаты на задачах поиска и снижая валидационную потерю по сравнению с базовыми трансформерами и аналогами вроде DenseFormer.

score 14r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1t4z3af/transformers_with_selective_access_to_early/