Назад к дайджесту
Reddit

Qwen3.6 + llama.cpp работает молниеносно

Пользователь тестирует локальный запуск модели Qwen3.6 с квантованием UD_Q_4_K_M на 16GB VRAM и 32GB RAM. При контексте 200k токенов достигается скорость генерации 50+ токенов в секунду, что демонстрирует высокую эффективность работы с большими моделями на потребительском железе.

score 57r/LocalLLaMA