Reddit16 июня 2026 г.

Бенчмарк ALE от UC Berkeley: тестирование реальных задач

UC Berkeley представили новый бенчмарк ALE для оценки способности ИИ выполнять реальные задачи в 13 отраслях. Исследование показало, что модели значительно уступают на практических тестах по сравнению с изолированными бенчмарками, а стоимость решений часто не оправдывает результат. Отмечено значительное отставание китайских моделей и неэффективность стандартных хендлеров для Claude.

score 40r/ClaudeAI

reddit.comhttps://www.reddit.com/r/ClaudeAI/comments/1u76wpw/uc_berkeley_ale_benchmark/