Назад к дайджесту
Reddit

Большинство тестов AI-агентов игнорируют эффективность выполнения

Автор делится наблюдениями: внутренние тесты AI-агентов часто показывают успешное завершение задачи, но скрывают неэффективность — лишние вызовы инструментов, повторные шаги и избыточные рассуждения. Стандартные метрики оценивают только вход и выход, игнорируя оркестрацию, что приводит к дорогим и ненадёжным системам в продакшене.

score 31r/AI_Agents