Reddit
Результаты бенчмарков MTP: тип задачи определяет выгоду от спекулятивного инференса — код ускоряется, креатив замедляется
Автор провёл системный анализ MTP на модели Qwen 27B и обнаружил, что спекулятивный инференс радикально ускоряет генерацию кода, но замедляет креативное письмо. Эффект зависит от квантования и пропускной способности памяти: F16 выигрывает от MTP в коде, а Q4_K_M теряет скорость в креативных задачах. Ключевой фактор — предсказуемость задачи, влияющая на процент принятия черновиков.
score 84r/LocalLLaMA