Reddit
Какая скорость генерации у Qwen3.6 27b у пользователей?
Пользователь спрашивает о скорости генерации модели Qwen3.6 27B при запуске через llama.cpp на трёх видеокартах. При квантовании Q8_0 и контексте 128k токенов достигается около 13 токенов в секунду, что вызывает сомнения в оптимальности конфигурации.
score 49r/LocalLLaMA