Как выжать максимум из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше Q4_K_M при том же размере