Назад к дайджесту
Reddit

Opus 4.7 (high) возглавила бенчмарк дебатов LLM, опередив Sonnet 4.6

Модель Opus 4.7 (high) заняла первое место в LLM Debate Benchmark, выиграв 51 из 55 завершённых споров без единого поражения. Она превзошла предыдущего чемпиона Sonnet 4.6 на 106 баллов BT, демонстрируя способность контролировать ход дискуссии и навязывать свои условия. Оценка проводилась независимым жюри из трёх моделей с обязательной заменой сторон.

score 40r/singularity