Reddit27 апреля 2026 г.

LLM-as-judge — это неправильный стандарт. Вот что работает

Автор критикует использование LLM для оценки ответов агентов, указывая на нестабильность и игнорирование внутреннего процесса. Вместо этого предлагается анализировать траекторию вызовов инструментов, проводить пошаговый реплей с фиксированными ответами и кластеризовать продакшн-трейсы для выявления дрейфа поведения.

score 22r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1swsqgt/llmasjudge_is_the_wrong_default_heres_what_works/