Reddit
Почему нормализация текста в потоковом TTS так мало обсуждается?
Автор поднимает проблему ошибок потоковых TTS-моделей в нормализации текста: они корректно читают речь, но ошибаются в датах, URL и номерах. Приведён бенчмарк коммерческих решений, где качество синтеза оценивалось с помощью Gemini. Это критический вызов для продакшена, который часто остаётся в тени.
score 14r/MachineLearning