Загрузка...

Назад к дайджесту

Reddit26 апреля 2026 г.

Qwen3.6-27B-INT4 на RTX 5090: 100 тпс и 256k контекста через vLLM 0.19

Пользователь оптимизировал работу квантованной модели Qwen3.6-27B-INT4 с помощью vLLM 0.19, достигнув скорости генерации более 100 токенов в секунду. Настройка позволяет использовать нативный контекст 256k на одной видеокарте RTX 5090 без потери качества. В конфигурации применены AutoRound, FlashInfer и спекулятивное декодирование MTP.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sw21op/qwen3627bint4_clocking_100_tps_with_256k_context/