Назад к дайджесту
Reddit

Оптимизация ggml-cpu: ускорение x86 и общих CPU для квантования q1_0

В репозитории llama.cpp вышла оптимизация CPU-вычислений для квантования q1_0, повышающая скорость инференса на процессорах без AVX. Тесты показывают рост производительности с 0.3 до 1.7 токена в секунду на слабом ноутбуке. Обновление также затрагивает версии с поддержкой Metal, Vulkan и CUDA для 1-битных моделей.

score 63r/LocalLLaMA