Reddit21 апреля 2026 г.

Qwen3.5-27B на RTX 5090 через vLLM: 77 токенов в секунду

Пользователь поделился настройками локального запуска модели Qwen3.5-27B на видеокарте RTX 5090 с использованием vLLM. Конфигурация обеспечивает 77 токенов в секунду и поддержку контекста до 218k, включая работу с двумя одновременными сессиями. В посте указаны конкретные параметры квантования NVFP4 и важные патчи для vLLM 0.19.

score 25r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sr8gyf/qwen3527b_on_rtx_5090_served_via_vllm_77_tps/