Reddit
Оптимизация ggml-cpu: ускорение x86 и общих CPU для квантования q1_0
В репозитории llama.cpp вышла оптимизация CPU-вычислений для квантования q1_0, повышающая скорость инференса на процессорах без AVX. Тесты показывают рост производительности с 0.3 до 1.7 токена в секунду на слабом ноутбуке. Обновление также затрагивает версии с поддержкой Metal, Vulkan и CUDA для 1-битных моделей.
score 63r/LocalLLaMA