Назад к дайджесту
Reddit

AllenAI выпустила модели компьютерного зрения MolmoMotion для прогнозирования траекторий движения на основе короткой последовательности кадров

AllenAI представила две версии модели MolmoMotion (4B параметров), способную прогнозировать 3D-траектории движения объектов. Модель анализирует короткую историю RGB-кадров и текстовые инструкции, чтобы предсказать, куда переместятся заданные точки в будущем. Это решение ориентировано на задачи компьютерного зрения, требующие понимания динамики сцены.

score 55r/LocalLLaMA