Reddit16 мая 2026 г.

Бенчмарки Strix Halo и llama.cpp с MTP: 27B значительно быстрее, 35B — неоднозначно

Проведены тесты производительности моделей Qwen3.6 (27B и 35B) на платформе AMD Strix Halo с использованием llama.cpp и технологии Multi-Token Prediction (MTP). Модель 27B показала значительный прирост скорости генерации, особенно в многошаговых диалогах, тогда как 35B дала смешанный результат с общим замедлением. Исследование демонстрирует эффективность MTP для оптимизации локального инференса на гибридном CPU/iGPU железе.

score 96r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1teypb8/strix_halo_llamacpp_mtp_benchmarks_27b_gets_much/