Назад к дайджесту
Reddit

Qwen3.6 27B в FP8 с кэшем KV на 200k токенов выдаёт 80 TPS на одной RTX 5000 PRO 48GB

Автор протестировал запуск модели Qwen3.6 27B в FP8-квантовании на видеокарте RTX 5000 PRO 48GB с использованием движка vLLM. С кэшем KV в BF16 удалось достичь 80 токенов в секунду при контексте 200k, избегая ошибок квантования, что делает эту конфигурацию привлекательной для локальных агентов. Приведены конкретные настройки окружения для воспроизведения результатов.

score 24r/LocalLLaMA