Reddit13 мая 2026 г.

Эластичные ядра внимания для масштабируемых зрительных трансформеров

Исследователи предлагают новый бэкбон для Vision Transformers, использующий блочно-разреженную структуру внимания «ядро-периферия» для снижения вычислительной сложности. Модель поддерживает динамическую настройку стоимости инференса во время тестирования и показывает точность, сопоставимую с DINOv3. Архитектура демонстрирует устойчивую работу на разрешениях от 256 до 1024 пикселей.

score 14r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1tbxbfp/elastic_attention_cores_for_scalable_vision/