Reddit
На новом сложном SWE-бенчмарке ProgramBench GPT-5.5 впервые решила задачу, значительно превзойдя Opus 4.7
Facebook Research представила новый бенчмарк ProgramBench для оценки способностей ИИ в программировании. Модель GPT-5.5 (версии high/xhigh) впервые решила задачу на этом тесте, значительно опередив Claude Opus 4.7. Это демонстрирует прогресс в области автоматизации разработки ПО с помощью языковых моделей.
score 100r/singularity