Reddit27 апреля 2026 г.

Оптимизация грамматики GBNF для ускорения Qwen3.6 35B-A3B и 27B

Разработчик улучшил производительность моделей Qwen3.6 35B-A3B и 27B, применив оптимизацию грамматики GBNF в среде llama.cpp. Эксперименты продемонстрировали сокращение потребления токенов до 94% и ускорение выполнения задач в 5–12 раз при сохранении качества ответов. Методика полезна для энтузиастов локального запуска LLM, стремящихся к максимальной эффективности вывода.

score 31r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sx7w55/gbnf_grammar_tweak_for_faster_qwen36_35ba3b_and/