Reddit13 мая 2026 г.

Scenema Audio: Экспрессивное клонирование голоса и генерация речи в режиме zero-shot

Компания Scenema открыла веса и код модели Scenema Audio для генерации экспрессивной речи и клонирования голоса в режиме zero-shot. Диффузионная модель разделяет голосовую идентичность и эмоциональную окраску, обеспечивая более естественный звук по сравнению с авторегрессивными TTS. Инструмент оптимизирован для рабочих процессов генерации видео, где аудио сначала создается, а затем синхронизируется с визуалом.

score 87r/StableDiffusion

reddit.comhttps://www.reddit.com/r/StableDiffusion/comments/1tbzgi3/scenema_audio_zeroshot_expressive_voice_cloning/