Назад к дайджесту
Reddit

Scenema Audio: Экспрессивное клонирование голоса и генерация речи в режиме zero-shot

Компания Scenema открыла веса и код модели Scenema Audio для генерации экспрессивной речи и клонирования голоса в режиме zero-shot. Диффузионная модель разделяет голосовую идентичность и эмоциональную окраску, обеспечивая более естественный звук по сравнению с авторегрессивными TTS. Инструмент оптимизирован для рабочих процессов генерации видео, где аудио сначала создается, а затем синхронизируется с визуалом.

score 87r/StableDiffusion