Reddit
Qwen3.6 + llama.cpp работает молниеносно
Пользователь тестирует локальный запуск модели Qwen3.6 с квантованием UD_Q_4_K_M на 16GB VRAM и 32GB RAM. При контексте 200k токенов достигается скорость генерации 50+ токенов в секунду, что демонстрирует высокую эффективность работы с большими моделями на потребительском железе.
score 57r/LocalLLaMA