Назад к дайджесту
Reddit

Запуск Qwen3.6 27B с MTP и контекстом 256k на RTX 5090

Пользователь поделился успешным запуском модели Qwen3.6 27B с технологией Multi-Token Prediction (MTP) через llama.cpp на видеокарте RTX 5090. Для работы требуется специальная версия библиотеки с конкретным PR, что позволяет достичь 65-75 токенов в секунду при контексте 256k без переполнения кэша.

score 25r/LocalLLaMA