Reddit
Qwen3.6 35B-A3B показывает отличные результаты на iGPU Radeon 780M с llama.cpp и Vulkan
Пользователь протестировал MoE-модель Qwen3.6 35B-A3B на встроенной графике AMD Radeon 780M с использованием llama.cpp и бэкенда Vulkan. Результаты показали около 20 токенов в секунду при генерации и более 280 токенов в секунду на префилле. Для запуска квантования Q6 потребовалось лишь тонкая настройка параметров ядра.
score 56r/LocalLLaMA