Reddit
Бенчмарки не соответствуют условиям развертывания: сравнение возможностей передовых моделей
Исследование сравнивает работу Claude, Gemini, GPT и Grok на задаче прогнозирования в двух режимах: с самостоятельным веб-поиском и с фиксированными данными. Выяснилось, что Opus лучше справляется с поиском информации, а Gemini демонстрирует более точную оценку на готовых доказательствах, что ставит под сомнение валидность текущих тестов для выбора моделей.
score 11r/AI_Agents