Reddit12 мая 2026 г.

LTX 2.3 Audio: автономная модель синтеза речи

Пользователи обсуждают модель Scenema Audio для эмоционального синтеза речи и клонирования голоса без дообучения. Инструмент использует кодировщик Gemma 3 12B, генерирует фоновые звуки и работает быстрее реального времени на RTX 4090 с потреблением 16 ГБ VRAM. Доступна на HuggingFace и поддерживает 13 языков.

score 19r/StableDiffusion

reddit.comhttps://www.reddit.com/r/StableDiffusion/comments/1tab0tb/ltx_23_audio_as_standalone_speech_model/