Reddit
GPT-5.5 выявила фатальные ошибки в задачах FrontierMath
Команда Epoch с помощью ИИ-ассистента нашла фатальные ошибки в трети задач сложного бенчмарка FrontierMath. Первичные сигналы об ошибках поступили от модели GPT-5.5, что подтверждает её способность проверять качество тестовых наборов. Окончательные оценки будут пересчитаны после исправления найденных проблем.
score 100r/singularity