Reddit
Qwen3.6-27B на RTX 4090: 80+ токенов/с с MTP и TurboQuant
Автор успешно настроил Multi-Token Prediction (MTP) совместно с TurboQuant для модели Qwen3.6-27B, достигнув скорости генерации более 80 токенов в секунду на одной видеокарте RTX 4090. Решение поддерживает контекст 262K и использует lossless 4.25 bpv KV cache, что делает локальный запуск больших моделей значительно эффективнее. Опубликован форк llama.cpp с реализацией оптимизации для сообщества.
score 80r/LocalLLaMA