Reddit
Архитектура внимания Mixture-of-Depths (MoDA)
Исследователи предлагают механизм Mixture-of-Depths Attention (MoDA) для решения проблемы деградации сигнала в глубоких языковых моделях. Метод позволяет головам внимания обращаться к парам KV из предыдущих слоев, обеспечивая эффективность, близкую к FlashAttention-2, и улучшение метрик на 2.11% при минимальных вычислительных затратах.
score 29r/LocalLLaMA