Reddit14 мая 2026 г.

Бенчмарки не соответствуют условиям развертывания: сравнение возможностей передовых моделей

Исследование сравнивает работу Claude, Gemini, GPT и Grok на задаче прогнозирования в двух режимах: с самостоятельным веб-поиском и с фиксированными данными. Выяснилось, что Opus лучше справляется с поиском информации, а Gemini демонстрирует более точную оценку на готовых доказательствах, что ставит под сомнение валидность текущих тестов для выбора моделей.

score 11r/AI_Agents

reddit.comhttps://www.reddit.com/r/AI_Agents/comments/1tb68a9/been_picking_frontier_models_on_benchmarks_that/