Reddit
Налог верификатора: компромисс безопасности и успеха у LLM-агентов с инструментами
Исследователи анализируют безопасность LLM-агентов с инструментами и вводят понятие «налога верификатора». Двухуровневая система проверки снижает количество небезопасных успешных задач, но снижает и общую успешность по мере усложнения сценариев. Работа предлагает разделять результаты на безопасный успех, небезопасный успех и провал для точной оценки.
score 40r/MachineLearning