Reddit21 апреля 2026 г.

Оптимизация ggml-cpu: ускорение x86 и общих CPU для квантования q1_0

В репозитории llama.cpp вышла оптимизация CPU-вычислений для квантования q1_0, повышающая скорость инференса на процессорах без AVX. Тесты показывают рост производительности с 0.3 до 1.7 токена в секунду на слабом ноутбуке. Обновление также затрагивает версии с поддержкой Metal, Vulkan и CUDA для 1-битных моделей.

score 63r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1srl58z/ggmlcpu_optimized_x86_and_generic_cpu_q1_0_dot/