Reddit5 мая 2026 г.

MTPLX: Ускорение LLM на Apple Silicon в 2.24 раза с нативным MTP-движком

MTPLX — это нативный движок для инференса LLM на чипах Apple Silicon, использующий встроенные MTP-головы моделей для ускорения генерации. Инструмент реализует точную выборку с температурой, избегая жадных алгоритмов, и поддерживает API совместимость с OpenAI/Anthropic. На примере модели Qwen3.6-27B на MacBook Pro M5 Max продемонстрировано увеличение скорости до 63 токенов в секунду.

score 44r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t3zuvy/mtplx_224x_faster_tps_the_native_mtp_inference/