Назад к дайджесту
Reddit

Бенчмарки Strix Halo и llama.cpp с MTP: 27B значительно быстрее, 35B — неоднозначно

Проведены тесты производительности моделей Qwen3.6 (27B и 35B) на платформе AMD Strix Halo с использованием llama.cpp и технологии Multi-Token Prediction (MTP). Модель 27B показала значительный прирост скорости генерации, особенно в многошаговых диалогах, тогда как 35B дала смешанный результат с общим замедлением. Исследование демонстрирует эффективность MTP для оптимизации локального инференса на гибридном CPU/iGPU железе.

score 96r/LocalLLaMA