Reddit
GPT 5.5 превосходит Opus 4.7 в бенчмарке ProgramBench
Модель GPT 5.5 превзошла Opus 4.7 в бенчмарке ProgramBench, успешно решив первую задачу. Архитектура новой версии обеспечивает большую эффективность токенов, требуя меньше шагов агента за счёт объединения команд. Результаты стали неожиданностью для исследователей, так как релиз модели последовал после фиксации состава участников для NeurIPS.
score 61r/OpenAI