Reddit
Qwen-3.6-27B и llamacpp: эксперимент со speculative decoding
Пользователь продемонстрировал эффективность speculative decoding в llama.cpp для модели Qwen-3.6-27B, увеличив скорость генерации с 13.6 до 136.75 токенов в секунду. В материале приведены конкретные параметры запуска сервера, обеспечивающие такой прирост производительности. Это практический кейс оптимизации локального инференса для разработчиков.
score 100r/LocalLLaMA