Reddit
Оптимизация грамматики GBNF для ускорения Qwen3.6 35B-A3B и 27B
Разработчик улучшил производительность моделей Qwen3.6 35B-A3B и 27B, применив оптимизацию грамматики GBNF в среде llama.cpp. Эксперименты продемонстрировали сокращение потребления токенов до 94% и ускорение выполнения задач в 5–12 раз при сохранении качества ответов. Методика полезна для энтузиастов локального запуска LLM, стремящихся к максимальной эффективности вывода.
score 31r/LocalLLaMA