Reddit
Запуск Qwen3.6 27B на двух модифицированных RTX 2080 Ti с 22 ГБ VRAM: 38 токенов/сек с kv-cache f16
Пользователь делится конфигурацией запуска Qwen3.6 27B на двух модифицированных видеокартах RTX 2080 Ti с увеличенной до 22 ГБ памятью. Используется quantization IQ4_XS, kv-cache в f16 для стабильности, llama.cpp с CUDA 12. Достигается 38 токенов/сек при ограничении мощности 150W на карту.
score 25r/LocalLLaMA