Reddit12 мая 2026 г.

Запуск Qwen3.6 27B с MTP и контекстом 256k на RTX 5090

Пользователь поделился успешным запуском модели Qwen3.6 27B с технологией Multi-Token Prediction (MTP) через llama.cpp на видеокарте RTX 5090. Для работы требуется специальная версия библиотеки с конкретным PR, что позволяет достичь 65-75 токенов в секунду при контексте 256k без переполнения кэша.

score 25r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1taz3eu/qwen36_27b_q5_k_m_mtp_256k_context_5090/