Назад к дайджесту
Reddit

Настройка Qwen 27B с MTP на одной RTX 3090 через llama.cpp

Пользователь делится конфигурацией запуска модели Qwen 27B на одной видеокарте RTX 3090 с использованием llama.cpp и технологии Multi-Token Prediction (MTP) для ускорения инференса. Обсуждаются компромиссы между квантованием (Q5_K_S против Q4) и точностью при достижении ~65 токенов в секунду.

score 42r/LocalLLaMA