Reddit25 апреля 2026 г.

Qwen3.6-27B выдаёт ~80 тпс с контекстом 218k на одной RTX 5090 через vLLM 0.19

Пользователь продемонстрировал работу квантованной модели Qwen3.6-27B (NVFP4) на видеокарте RTX 5090 с использованием фреймворка vLLM 0.19. Достигнута скорость генерации около 80 токенов в секунду при поддержке контекстного окна в 218 тысяч токенов. Это демонстрирует возможности локального развертывания больших моделей на потребительском железе.

score 51r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sv8eua/qwen3627b_at_80_tps_with_218k_context_window_on/