Назад к дайджесту
Reddit

Бенчмарки не соответствуют условиям развертывания: сравнение возможностей передовых моделей

Исследование сравнивает работу Claude, Gemini, GPT и Grok на задаче прогнозирования в двух режимах: с самостоятельным веб-поиском и с фиксированными данными. Выяснилось, что Opus лучше справляется с поиском информации, а Gemini демонстрирует более точную оценку на готовых доказательствах, что ставит под сомнение валидность текущих тестов для выбора моделей.

score 11r/AI_Agents