Назад к дайджесту
Reddit

Запуск Qwen3.6 27B на двух модифицированных RTX 2080 Ti с 22 ГБ VRAM: 38 токенов/сек с kv-cache f16

Пользователь делится конфигурацией запуска Qwen3.6 27B на двух модифицированных видеокартах RTX 2080 Ti с увеличенной до 22 ГБ памятью. Используется quantization IQ4_XS, kv-cache в f16 для стабильности, llama.cpp с CUDA 12. Достигается 38 токенов/сек при ограничении мощности 150W на карту.

score 25r/LocalLLaMA