Назад к дайджесту
Reddit

Архитектура внимания Mixture-of-Depths (MoDA)

Исследователи предлагают механизм Mixture-of-Depths Attention (MoDA) для решения проблемы деградации сигнала в глубоких языковых моделях. Метод позволяет головам внимания обращаться к парам KV из предыдущих слоев, обеспечивая эффективность, близкую к FlashAttention-2, и улучшение метрик на 2.11% при минимальных вычислительных затратах.

score 29r/LocalLLaMA