Назад к дайджесту
Reddit

Инференс Qwen 27B на 9070 XT: скорость и оптимизация

Пользователь обсуждает скорость генерации токенов (12 ток/с) модели Qwen 27B в квантовании q3 через llama.cpp. Обсуждаются настройки контекста 65536 и параметры запуска сервера на GPU. Автор просит оценить производительность и предложить способы её повышения.

score 16r/LocalLLaMA