Назад к дайджесту
Reddit

Qwen3.6-27B выдаёт ~80 тпс с контекстом 218k на одной RTX 5090 через vLLM 0.19

Пользователь продемонстрировал работу квантованной модели Qwen3.6-27B (NVFP4) на видеокарте RTX 5090 с использованием фреймворка vLLM 0.19. Достигнута скорость генерации около 80 токенов в секунду при поддержке контекстного окна в 218 тысяч токенов. Это демонстрирует возможности локального развертывания больших моделей на потребительском железе.

score 51r/LocalLLaMA