Reddit27 апреля 2026 г.

Простой Docker-контейнер vLLM для Qwen3.6 27b с квантованием INT4 и MTP-декодингом — 118 токенов/сек на двух 3090

Автор публикует готовый Docker-образ для запуска модели Qwen3.6 27b через фреймворк vLLM. Решение включает квантование AutoRound INT4 и спекулятивный декодинг MTP, обеспечивая скорость 118 токенов в секунду на двух видеокартах RTX 3090.

score 30r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sx3gsl/simple_to_use_vllm_docker_container_for_qwen36/