Назад к дайджесту
Reddit

Простой Docker-контейнер vLLM для Qwen3.6 27b с квантованием INT4 и MTP-декодингом — 118 токенов/сек на двух 3090

Автор публикует готовый Docker-образ для запуска модели Qwen3.6 27b через фреймворк vLLM. Решение включает квантование AutoRound INT4 и спекулятивный декодинг MTP, обеспечивая скорость 118 токенов в секунду на двух видеокартах RTX 3090.

score 30r/LocalLLaMA