Назад к дайджесту
Reddit

Технический отчёт по Qwen-Image-VAE-2.0

Команда представила Qwen-Image-VAE-2.0 — набор высококомпрессированных вариационных автоэнкодеров с улучшенной архитектурой для повышения качества реконструкции и совместимости с диффузионными моделями. Включены глобальные пропускные связи, асимметричный энкодер без внимания и новый бенчмарк OmniDoc-TokenBench для оценки работы с текстом. Модель показывает state-of-the-art результаты в общих задачах и сценариях с обилием текста при высоких коэффициентах сжатия.

score 35r/StableDiffusion