Reddit
Как GPT 5.5 Pro может отстать от GPT 5.4 Pro в бенчмарке HLE (с инструментами)?
Пользователь обсуждает парадоксальные результаты тестирования, где версия 5.5 Pro показывает худшие метрики, чем 5.4 Pro, в задаче с инструментами. Пост поднимает вопросы о валидности бенчмарков и возможной регрессии в будущих версиях моделей.
score 18r/OpenAI