Reddit6 мая 2026 г.

Обновление LLM Debate Benchmark: добавлены GPT-5.5, Grok 4.3, DeepSeek V4 Pro и ряд других моделей

Обновлён независимый бенчмарк LLM Debate Benchmark, оценивающий модели через систему многоходовых сопернических дебатов. В тест включены новые версии GPT-5.5, Grok 4.3, DeepSeek V4 Pro и другие, результаты ранжированы по шкале Эло. Лидером остаётся Opus 4.7, при этом некоторые модели показали регресс по сравнению с предыдущими версиями.

score 40r/singularity

reddit.comhttps://www.reddit.com/r/singularity/comments/1t4o37r/update_to_the_llm_debate_benchmark_gpt55_grok_43/