Reddit24 апреля 2026 г.

Qwen 3.6 27B (IQ4_XS): 22 токена/сек на RTX 5060TI 16 ГБ, контекст 24k

Пользователь протестировал запуск квантованной модели Qwen 3.6 27B на видеокарте с 16 ГБ памяти. Скорость генерации составила 22 токена в секунду при максимальном контексте 24k с использованием IQ4_XS и llama-server. Описаны настройки и ограничения по памяти для достижения таких показателей.

score 35r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1su0il5/qwen_36_27b_iq4_xs_22_tps_on_rtx_5060ti_16b_24k/