Новость
Как выжать максимум из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше Q4_K_M при том же размере
Материал посвящен практической оптимизации запуска локальных языковых моделей на домашнем железе. Автор сравнивает скорость работы Ollama и llama.cpp, разбирает эффективность различных квантований и влияние операционной системы на производительность инференса.