Reddit3 мая 2026 г.

Qwen3.6-27B на Windows без WSL: нативный vLLM и 72 ток/с на RTX 3090

Разработчик выпустил портативный запускатель и форк vLLM для нативного запуска LLM на Windows без WSL и Docker. Тесты на RTX 3090 показали 72 токена в секунду для коротких промптов и поддержку контекста до 160k токенов на двух картах. Решение использует INT4 квантование и совместимо с картами Ampere, Ada и Blackwell.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t1judm/qwen3627b_at_72_toks_on_rtx_3090_on_windows_using/