Reddit3 мая 2026 г.

Qwen 3.6 побеждает в бенчмарках, но Gemma 4 — в реальности. 7 инсайтов при локальном тесте 27B/31B Vision-моделей (vLLM / FP8) бок о бок. Похоже, результаты бенчмарков накручены

Автор сравнивает локальную работу Qwen 3.6 и Gemma 4 Vision через vLLM с квантованием FP8, выявляя разрыв между синтетическими бенчмарками и реальными задачами. Gemma 4 оказалась эффективнее в генерации JSON и соблюдении инструкций по координатам, тогда как Qwen 3.6 склонен к чрезмерному использованию токенов и ошибкам в форматировании. Тестирование на реальных данных (мемы, рукописный текст) показало, что официальные рейтинги могут быть искажены.

score 50r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t1te8y/qwen_36_wins_the_benchmarks_but_gemma_4_wins/