Назад к дайджесту
Reddit

SenseNova-U1: Технический отчёт о модели без VAE с потоковой синхронизацией пикселей

SenseTime представила модель SenseNova-U1, полностью отказавшуюся от VAE и визуальных энкодеров в пользу прямого предсказания пикселей через 32-кратное сжатие. Архитектура использует Native MoT и совместное обучение на авто-регрессивных потерях и Flow Matching, что позволяет сохранять детали и текст при генерации. Это исследование может стать новым стандартом для следующего поколения моделей компьютерного зрения.

score 19r/StableDiffusion