Reddit
Qwen 3.6 27B (IQ4_XS): 22 токена/сек на RTX 5060TI 16 ГБ, контекст 24k
Пользователь протестировал запуск квантованной модели Qwen 3.6 27B на видеокарте с 16 ГБ памяти. Скорость генерации составила 22 токена в секунду при максимальном контексте 24k с использованием IQ4_XS и llama-server. Описаны настройки и ограничения по памяти для достижения таких показателей.
score 35r/LocalLLaMA