Reddit15 мая 2026 г.

Scenema Audio: Эмоциональная генерация речи и zero-shot клонирование голоса

Компания Scenema открыла доступ к весам и коду модели диффузионной генерации речи, позволяющей независимо управлять голосовой идентичностью и эмоциями. Система демонстрирует более естественный звук по сравнению с авторегрессивными TTS и подходит для создания аудио перед генерацией видео. Несмотря на ограничения вроде повторов, модель считается полезной для пост-продакшена в AI-видео.

score 75r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tcwqdd/scenema_audio_zeroshot_expressive_voice_cloning/