Назад к дайджесту
Reddit

Какая скорость генерации у Qwen3.6 27b у пользователей?

Пользователь спрашивает о скорости генерации модели Qwen3.6 27B при запуске через llama.cpp на трёх видеокартах. При квантовании Q8_0 и контексте 128k токенов достигается около 13 токенов в секунду, что вызывает сомнения в оптимальности конфигурации.

score 49r/LocalLLaMA