Qwen3.6-27B на RTX 4090: 80+ токенов/с с MTP и TurboQuant

Автор успешно настроил Multi-Token Prediction (MTP) совместно с TurboQuant для модели Qwen3.6-27B, достигнув скорости генерации более 80 токенов в секунду на одной видеокарте RTX 4090. Решение поддерживает контекст 262K и использует lossless 4.25 bpv KV cache, что делает локальный запуск больших моделей значительно эффективнее. Опубликован форк llama.cpp с реализацией оптимизации для сообщества.

score 80r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t7kyju/got_mtp_turboquant_running_qwen3627b_80_ts_at/