Назад к дайджесту
Reddit

GPT 5.5 набрала 1,7% на тесте OpenAI-proof Q&A — внутренний бенчмарк, проверяющий работу с реальными ML-задачами в процессе исследований и инженерии

В Reddit-сообществе обсуждается утверждение о том, что модель GPT 5.5 показала крайне низкий результат (1,7%) на специализированном тесте, имитирующем реальные инженерные и исследовательские проблемы машинного обучения. Материал касается производительности LLM и бенчмарков, даже если версия модели не подтверждена официально.

score 98r/singularity