Reddit
GPT 5.5 набрала 1,7% на тесте OpenAI-proof Q&A — внутренний бенчмарк, проверяющий работу с реальными ML-задачами в процессе исследований и инженерии
В Reddit-сообществе обсуждается утверждение о том, что модель GPT 5.5 показала крайне низкий результат (1,7%) на специализированном тесте, имитирующем реальные инженерные и исследовательские проблемы машинного обучения. Материал касается производительности LLM и бенчмарков, даже если версия модели не подтверждена официально.
score 98r/singularity