Reddit
Qwen3.6-27B-INT4 на RTX 5090: 100 тпс и 256k контекста через vLLM 0.19
Пользователь оптимизировал работу квантованной модели Qwen3.6-27B-INT4 с помощью vLLM 0.19, достигнув скорости генерации более 100 токенов в секунду. Настройка позволяет использовать нативный контекст 256k на одной видеокарте RTX 5090 без потери качества. В конфигурации применены AutoRound, FlashInfer и спекулятивное декодирование MTP.
score 100r/LocalLLaMA