Reddit6 мая 2026 г.

Qwen 3.6 27B с MTP на V100: 54 токена в секунду

Пользователь протестировал модель Qwen 3.6 27B с использованием ветки MTP (Multi-Token Prediction) в llama.cpp на видеокарте NVIDIA V100. Скорость генерации выросла с 30 до 54 токенов в секунду, что позволяет эффективно использовать модель в роли Copilot. Отмечена стабильная работа с контекстом до 200k и вызовом инструментов.

score 42r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t4zu88/qwen_36_27b_mtp_on_v100_32gb_54_ts/