Назад к дайджесту
Reddit

Qwen 3.6 побеждает в бенчмарках, но Gemma 4 — в реальности. 7 инсайтов при локальном тесте 27B/31B Vision-моделей (vLLM / FP8) бок о бок. Похоже, результаты бенчмарков накручены

Автор сравнивает локальную работу Qwen 3.6 и Gemma 4 Vision через vLLM с квантованием FP8, выявляя разрыв между синтетическими бенчмарками и реальными задачами. Gemma 4 оказалась эффективнее в генерации JSON и соблюдении инструкций по координатам, тогда как Qwen 3.6 склонен к чрезмерному использованию токенов и ошибкам в форматировании. Тестирование на реальных данных (мемы, рукописный текст) показало, что официальные рейтинги могут быть искажены.

score 50r/LocalLLaMA