Назад к дайджесту
Reddit

LTX 2.3 Audio: автономная модель синтеза речи

Пользователи обсуждают модель Scenema Audio для эмоционального синтеза речи и клонирования голоса без дообучения. Инструмент использует кодировщик Gemma 3 12B, генерирует фоновые звуки и работает быстрее реального времени на RTX 4090 с потреблением 16 ГБ VRAM. Доступна на HuggingFace и поддерживает 13 языков.

score 19r/StableDiffusion