Reddit
Бенчмарк ALE от UC Berkeley: тестирование реальных задач
UC Berkeley представили новый бенчмарк ALE для оценки способности ИИ выполнять реальные задачи в 13 отраслях. Исследование показало, что модели значительно уступают на практических тестах по сравнению с изолированными бенчмарками, а стоимость решений часто не оправдывает результат. Отмечено значительное отставание китайских моделей и неэффективность стандартных хендлеров для Claude.
score 40r/ClaudeAI