Reddit10 мая 2026 г.

Инференс Qwen 27B на 9070 XT: скорость и оптимизация

Пользователь обсуждает скорость генерации токенов (12 ток/с) модели Qwen 27B в квантовании q3 через llama.cpp. Обсуждаются настройки контекста 65536 и параметры запуска сервера на GPU. Автор просит оценить производительность и предложить способы её повышения.

score 16r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t8ad37/9070xt_inference_for_q3_qwen_27b/