Reddit28 апреля 2026 г.

Голосовой агент на reasoning-модели: как снизить задержку?

Разработчик создаёт голосового агента на базе Deepseek V3/V4, но сталкивается с критической задержкой в 3-5 секунд из-за использования моделей с функцией рассуждений. Цель — сократить время первого токена (TFFT) до 500мс для обеспечения реального времени, но текущая архитектура не позволяет достичь этого. Автор ищет технические решения для балансировки между интеллектом reasoning-моделей и скоростью ответа.

score 22r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1sxzf5k/reasoning_model_in_voice_agent/