Назад к дайджесту
Reddit

Ускорение HFQ4-префилла в 3 раза на Strix Halo в hipfire через MMQ-путь

Разработчик внедрил экспериментальный MMQ-путь в движок инференса hipfire для AMD RDNA, оптимизирующий обработку префилла через матричные ядра. На Strix Halo с моделью Qwen3.5 9B это дало трёхкратный рост скорости: с ~310 до ~1200 токенов в секунду. Оптимизация требует включения флага HIPFIRE_MMQ=1 и пока не включена по умолчанию.

score 43r/LocalLLaMA