Reddit
Ускорение Qwen 3.6 27B: настройка llama.cpp для 100k контекста на RTX 3090
Пользователь делится конфигурацией запуска модели Qwen 3.6 27B в формате GGUF через llama.cpp, достигая 50 токенов в секунду с контекстом 100k на видеокарте RTX 3090. В посте указаны ключевые флаги для активации MTP (Multi-Token Prediction), Flash Attention и оптимизации кэша KV для повышения производительности.
score 34r/LocalLLaMA