Reddit
Не слишком ли инструменты оценки LLM всё ещё ориентированы на промпты?
Автор анализирует текущие инструменты оценки LLM, отмечая, что многие фокусируются на изолированных промптах, тогда как реальные сбои происходят в сложных рабочих процессах. Приведены примеры платформ вроде Langfuse и Braintrust, которые пытаются оценивать полные взаимодействия агентов. Обсуждение поднимает важную проблему для инженеров, работающих с внедрением ИИ.
score 14r/AI_Agents