Reddit
Opus 4.7 (high) возглавил LLM Debate Benchmark, обогнав Sonnet 4.6 на 106 баллов BT
Opus 4.7 (high) заняла первое место в LLM Debate Benchmark, обогнав предыдущего чемпиона Sonnet 4.6 (high) на 106 баллов BT. Модель продемонстрировала идеальную статистику в парных дебатах: 51 победа, 4 ничьих и 0 поражений при размене сторон. Результаты подтверждены независимой панелью из трёх других моделей, избегающих семейных связей с участниками.
score 30r/ClaudeAI