Назад к дайджесту
Reddit

GPT 5.5 превосходит Opus 4.7 в бенчмарке ProgramBench

Модель GPT 5.5 превзошла Opus 4.7 в бенчмарке ProgramBench, успешно решив первую задачу. Архитектура новой версии обеспечивает большую эффективность токенов, требуя меньше шагов агента за счёт объединения команд. Результаты стали неожиданностью для исследователей, так как релиз модели последовал после фиксации состава участников для NeurIPS.

score 61r/OpenAI