Назад к дайджесту
Reddit

Qwen 3.6 35B обошла Gemma 4 26B в моих тестах

Автор провёл сравнительное тестирование двух моделей на кастомном eval-хэрнесе с 37 задачами по отладке кода, работе с PDF, агентным сценариям и reasoning. Qwen 3.6 35B решила 32 из 37 задач без регрессий за 49 минут, тогда как Gemma 4 26B — 28 задач с 8 регрессиями за 85 минут.

score 100r/LocalLLaMA