Reddit23 апреля 2026 г.

Qwen3 TTS серьёзно недооценён: запустил локально в реальном времени, это одна из самых выразительных открытых моделей TTS

Автор успешно развернул модель Qwen3 TTS локально с поддержкой потоковой передачи в реальном времени, используя архитектуру с скользящим окном декодера. Он интегрировал модель с llama.cpp, добавил выравнивание CTC для синхронизации губ и экспериментировал с кастомным дообучением голосов. Материал описывает технические детали оптимизации и ограничения текущего клонирования речи.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1ssugid/qwen3_tts_is_seriously_underrated_i_got_it/