Назад к дайджесту
Reddit

Эластичные ядра внимания для масштабируемых зрительных трансформеров

Исследователи предлагают новый бэкбон для Vision Transformers, использующий блочно-разреженную структуру внимания «ядро-периферия» для снижения вычислительной сложности. Модель поддерживает динамическую настройку стоимости инференса во время тестирования и показывает точность, сопоставимую с DINOv3. Архитектура демонстрирует устойчивую работу на разрешениях от 256 до 1024 пикселей.

score 14r/MachineLearning