Назад к дайджесту
Reddit

Qwen3 TTS серьёзно недооценён: запустил локально в реальном времени, это одна из самых выразительных открытых моделей TTS

Автор успешно развернул модель Qwen3 TTS локально с поддержкой потоковой передачи в реальном времени, используя архитектуру с скользящим окном декодера. Он интегрировал модель с llama.cpp, добавил выравнивание CTC для синхронизации губ и экспериментировал с кастомным дообучением голосов. Материал описывает технические детали оптимизации и ограничения текущего клонирования речи.

score 100r/LocalLLaMA