Назад к дайджесту
Reddit

Qwen 3.6 27B (IQ4_XS): 22 токена/сек на RTX 5060TI 16 ГБ, контекст 24k

Пользователь протестировал запуск квантованной модели Qwen 3.6 27B на видеокарте с 16 ГБ памяти. Скорость генерации составила 22 токена в секунду при максимальном контексте 24k с использованием IQ4_XS и llama-server. Описаны настройки и ограничения по памяти для достижения таких показателей.

score 35r/LocalLLaMA