Назад к дайджесту
Reddit

EvoSkill: Устранение повторяющихся ошибок агентов на основе оценки

Описывается метод EvoSkill для анализа неудачных запусков агентов и эволюции навыков или правок промптов. Изменения сохраняются в git и применяются только после улучшения результатов на тестовых данных. Метод показал рост точности на бенчмарках OfficeQA, SealQA и BrowseComp.

score 40r/AI_Agents