Назад к дайджесту
Reddit

MTPLX: Ускорение LLM на Apple Silicon в 2.24 раза с нативным MTP-движком

MTPLX — это нативный движок для инференса LLM на чипах Apple Silicon, использующий встроенные MTP-головы моделей для ускорения генерации. Инструмент реализует точную выборку с температурой, избегая жадных алгоритмов, и поддерживает API совместимость с OpenAI/Anthropic. На примере модели Qwen3.6-27B на MacBook Pro M5 Max продемонстрировано увеличение скорости до 63 токенов в секунду.

score 44r/LocalLLaMA