Назад к дайджесту
Reddit

Бенчмарк ALE от UC Berkeley: тестирование реальных задач

UC Berkeley представили новый бенчмарк ALE для оценки способности ИИ выполнять реальные задачи в 13 отраслях. Исследование показало, что модели значительно уступают на практических тестах по сравнению с изолированными бенчмарками, а стоимость решений часто не оправдывает результат. Отмечено значительное отставание китайских моделей и неэффективность стандартных хендлеров для Claude.

score 40r/ClaudeAI