Назад к дайджесту
Reddit

Scenema Audio: Эмоциональная генерация речи и zero-shot клонирование голоса

Компания Scenema открыла доступ к весам и коду модели диффузионной генерации речи, позволяющей независимо управлять голосовой идентичностью и эмоциями. Система демонстрирует более естественный звук по сравнению с авторегрессивными TTS и подходит для создания аудио перед генерацией видео. Несмотря на ограничения вроде повторов, модель считается полезной для пост-продакшена в AI-видео.

score 75r/LocalLLaMA