Reddit14 июня 2026 г.

Налог верификатора: компромисс безопасности и успеха у LLM-агентов с инструментами

Исследователи анализируют безопасность LLM-агентов с инструментами и вводят понятие «налога верификатора». Двухуровневая система проверки снижает количество небезопасных успешных задач, но снижает и общую успешность по мере усложнения сценариев. Работа предлагает разделять результаты на безопасный успех, небезопасный успех и провал для точной оценки.

score 40r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1u58mkq/the_verifier_tax_horizondependent_safetysuccess/