Назад к дайджесту
Reddit

GPT-5.5 выявила фатальные ошибки в задачах FrontierMath

Команда Epoch с помощью ИИ-ассистента нашла фатальные ошибки в трети задач сложного бенчмарка FrontierMath. Первичные сигналы об ошибках поступили от модели GPT-5.5, что подтверждает её способность проверять качество тестовых наборов. Окончательные оценки будут пересчитаны после исправления найденных проблем.

score 100r/singularity