Reddit
LTX 2.3 Audio: автономная модель синтеза речи
Пользователи обсуждают модель Scenema Audio для эмоционального синтеза речи и клонирования голоса без дообучения. Инструмент использует кодировщик Gemma 3 12B, генерирует фоновые звуки и работает быстрее реального времени на RTX 4090 с потреблением 16 ГБ VRAM. Доступна на HuggingFace и поддерживает 13 языков.
score 19r/StableDiffusion