Reddit
Opus 4.7 (high) возглавила бенчмарк дебатов LLM, опередив Sonnet 4.6
Модель Opus 4.7 (high) заняла первое место в LLM Debate Benchmark, выиграв 51 из 55 завершённых споров без единого поражения. Она превзошла предыдущего чемпиона Sonnet 4.6 на 106 баллов BT, демонстрируя способность контролировать ход дискуссии и навязывать свои условия. Оценка проводилась независимым жюри из трёх моделей с обязательной заменой сторон.
score 40r/singularity