Назад к дайджесту
Reddit

Qwen3.6-27B на Windows без WSL: нативный vLLM и 72 ток/с на RTX 3090

Разработчик выпустил портативный запускатель и форк vLLM для нативного запуска LLM на Windows без WSL и Docker. Тесты на RTX 3090 показали 72 токена в секунду для коротких промптов и поддержку контекста до 160k токенов на двух картах. Решение использует INT4 квантование и совместимо с картами Ampere, Ada и Blackwell.

score 100r/LocalLLaMA