Reddit
Обновление LLM Debate Benchmark: добавлены GPT-5.5, Grok 4.3, DeepSeek V4 Pro и ряд других моделей
Обновлён независимый бенчмарк LLM Debate Benchmark, оценивающий модели через систему многоходовых сопернических дебатов. В тест включены новые версии GPT-5.5, Grok 4.3, DeepSeek V4 Pro и другие, результаты ранжированы по шкале Эло. Лидером остаётся Opus 4.7, при этом некоторые модели показали регресс по сравнению с предыдущими версиями.
score 40r/singularity