Назад к дайджесту
Reddit

Qwen3.5-27B на RTX 5090 через vLLM: 77 токенов в секунду

Пользователь поделился настройками локального запуска модели Qwen3.5-27B на видеокарте RTX 5090 с использованием vLLM. Конфигурация обеспечивает 77 токенов в секунду и поддержку контекста до 218k, включая работу с двумя одновременными сессиями. В посте указаны конкретные параметры квантования NVFP4 и важные патчи для vLLM 0.19.

score 25r/LocalLLaMA