Reddit21 апреля 2026 г.

Opus 4.7 (high) возглавила бенчмарк дебатов LLM, опередив Sonnet 4.6

Модель Opus 4.7 (high) заняла первое место в LLM Debate Benchmark, выиграв 51 из 55 завершённых споров без единого поражения. Она превзошла предыдущего чемпиона Sonnet 4.6 на 106 баллов BT, демонстрируя способность контролировать ход дискуссии и навязывать свои условия. Оценка проводилась независимым жюри из трёх моделей с обязательной заменой сторон.

score 40r/singularity

reddit.comhttps://www.reddit.com/r/singularity/comments/1sr4bid/opus_47_high_takes_1_on_the_llm_debate_benchmark/