Reddit9 мая 2026 г.

Большинство тестов AI-агентов игнорируют эффективность выполнения

Автор делится наблюдениями: внутренние тесты AI-агентов часто показывают успешное завершение задачи, но скрывают неэффективность — лишние вызовы инструментов, повторные шаги и избыточные рассуждения. Стандартные метрики оценивают только вход и выход, игнорируя оркестрацию, что приводит к дорогим и ненадёжным системам в продакшене.

score 31r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1t84kn8/most_ai_agent_evals_completely_ignore_execution/