Reddit
Flare-TTS 28M: модель синтеза речи, обученная с нуля на одной видеокарте
Разработчик представил новую открытую модель синтеза речи Flare-TTS 28M, обученную полностью с нуля на датасете LJSpeech. Проект весит 28 миллионов параметров и был создан на одной видеокарте NVIDIA A6000 за 24 часа. Модель доступна бесплатно на Hugging Face, хотя качество голоса пока остаётся немного роботизированным.
score 83r/LocalLLaMA