Назад к дайджесту
Reddit

Обновление LLM Debate Benchmark: добавлены GPT-5.5, Grok 4.3, DeepSeek V4 Pro и ряд других моделей

Обновлён независимый бенчмарк LLM Debate Benchmark, оценивающий модели через систему многоходовых сопернических дебатов. В тест включены новые версии GPT-5.5, Grok 4.3, DeepSeek V4 Pro и другие, результаты ранжированы по шкале Эло. Лидером остаётся Opus 4.7, при этом некоторые модели показали регресс по сравнению с предыдущими версиями.

score 40r/singularity