Назад к дайджесту
Reddit

Ускорение Qwen 3.6 27B: настройка llama.cpp для 100k контекста на RTX 3090

Пользователь делится конфигурацией запуска модели Qwen 3.6 27B в формате GGUF через llama.cpp, достигая 50 токенов в секунду с контекстом 100k на видеокарте RTX 3090. В посте указаны ключевые флаги для активации MTP (Multi-Token Prediction), Flash Attention и оптимизации кэша KV для повышения производительности.

score 34r/LocalLLaMA