Reddit14 мая 2026 г.

SenseNova-U1: Технический отчёт о модели без VAE с потоковой синхронизацией пикселей

SenseTime представила модель SenseNova-U1, полностью отказавшуюся от VAE и визуальных энкодеров в пользу прямого предсказания пикселей через 32-кратное сжатие. Архитектура использует Native MoT и совместное обучение на авто-регрессивных потерях и Flow Matching, что позволяет сохранять детали и текст при генерации. Это исследование может стать новым стандартом для следующего поколения моделей компьютерного зрения.

score 19r/StableDiffusion

reddit.comhttps://www.reddit.com/r/StableDiffusion/comments/1tc2anx/sensenovau1_technical_report_vaefree_pixellevel/