Reddit
Голосовой агент на reasoning-модели: как снизить задержку?
Разработчик создаёт голосового агента на базе Deepseek V3/V4, но сталкивается с критической задержкой в 3-5 секунд из-за использования моделей с функцией рассуждений. Цель — сократить время первого токена (TFFT) до 500мс для обеспечения реального времени, но текущая архитектура не позволяет достичь этого. Автор ищет технические решения для балансировки между интеллектом reasoning-моделей и скоростью ответа.
score 22r/AI_Agents