Reddit7 мая 2026 г.

Стек оценки LLM-приложений: почему RAGAS и DeepEval недостаточно для продакшена

Автор утверждает, что популярные инструменты оценки вроде RAGAS и DeepEval покрывают только первый слой задач, игнорируя наблюдаемость и реальный трафик. Статья описывает трёхуровневую архитектуру тестирования, включая метрики, фреймворки и платформы observability для агентов и мультимодальных систем.

score 10r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1t6ap3j/every_week_this_we_see_some_version_of_how_do_i/