Reddit20 апреля 2026 г.

Qwen3.6 + llama.cpp работает молниеносно

Пользователь тестирует локальный запуск модели Qwen3.6 с квантованием UD_Q_4_K_M на 16GB VRAM и 32GB RAM. При контексте 200k токенов достигается скорость генерации 50+ токенов в секунду, что демонстрирует высокую эффективность работы с большими моделями на потребительском железе.

score 57r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1sq8q9k/qwen36_ik_llama_is_fast_af/