Reddit15 мая 2026 г.

Запуск Qwen3.6 27B на двух модифицированных RTX 2080 Ti с 22 ГБ VRAM: 38 токенов/сек с kv-cache f16

Пользователь делится конфигурацией запуска Qwen3.6 27B на двух модифицированных видеокартах RTX 2080 Ti с увеличенной до 22 ГБ памятью. Используется quantization IQ4_XS, kv-cache в f16 для стабильности, llama.cpp с CUDA 12. Достигается 38 токенов/сек при ограничении мощности 150W на карту.

score 25r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tdty58/2_old_rtx_2080_ti_with_22gb_vram_each_qwen36_27b/