На новом сложном SWE-бенчмарке ProgramBench GPT-5.5 впервые решила задачу, значительно превзойдя Opus 4.7