Назад к дайджесту
Reddit

ИИ-гиганты набрали меньше 25% в тесте на реальное применение под руководством Беркли

Исследователи UC Berkeley совместно с 300 экспертами представили бенчмарк Agents' Last Exam, оценивающий работу ИИ в более чем 50 отраслях. Лучшая модель GPT-5.5 показала лишь 24% успеха, что свидетельствует о серьёзных ограничениях современных агентов в реальных сценариях. Остальные игроки рынка, включая Claude и Gemini, набрали ещё меньше.

score 40r/OpenAI