Reddit
Qwen3 TTS серьёзно недооценён: запустил локально в реальном времени, это одна из самых выразительных открытых моделей TTS
Автор успешно развернул модель Qwen3 TTS локально с поддержкой потоковой передачи в реальном времени, используя архитектуру с скользящим окном декодера. Он интегрировал модель с llama.cpp, добавил выравнивание CTC для синхронизации губ и экспериментировал с кастомным дообучением голосов. Материал описывает технические детали оптимизации и ограничения текущего клонирования речи.
score 100r/LocalLLaMA