Reddit
Qwen 3.6 27B с MTP на V100: 54 токена в секунду
Пользователь протестировал модель Qwen 3.6 27B с использованием ветки MTP (Multi-Token Prediction) в llama.cpp на видеокарте NVIDIA V100. Скорость генерации выросла с 30 до 54 токенов в секунду, что позволяет эффективно использовать модель в роли Copilot. Отмечена стабильная работа с контекстом до 200k и вызовом инструментов.
score 42r/LocalLLaMA