Reddit16 июня 2026 г.

ИИ-гиганты набрали меньше 25% в тесте на реальное применение под руководством Беркли

Исследователи UC Berkeley совместно с 300 экспертами представили бенчмарк Agents' Last Exam, оценивающий работу ИИ в более чем 50 отраслях. Лучшая модель GPT-5.5 показала лишь 24% успеха, что свидетельствует о серьёзных ограничениях современных агентов в реальных сценариях. Остальные игроки рынка, включая Claude и Gemini, набрали ещё меньше.

score 40r/OpenAI

reddit.comhttps://www.reddit.com/r/OpenAI/comments/1u6wkhf/ai_giants_score_below_25_in_uc_berkeleyled_test/