Reddit7 мая 2026 г.

Ускорение Qwen 3.6 27B: настройка llama.cpp для 100k контекста на RTX 3090

Пользователь делится конфигурацией запуска модели Qwen 3.6 27B в формате GGUF через llama.cpp, достигая 50 токенов в секунду с контекстом 100k на видеокарте RTX 3090. В посте указаны ключевые флаги для активации MTP (Multi-Token Prediction), Flash Attention и оптимизации кэша KV для повышения производительности.

score 34r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t5tnzl/get_faster_qwen_36_27b/