Reddit12 мая 2026 г.

llama.cpp: ускорение генерации с MTP и объединённой памятью CUDA

Пользователь тестирует Multi-Token Prediction (MTP) в llama.cpp с флагом GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 на RTX 5090. Показано улучшение скорости генерации с 49 токенов/сек до 64 токенов/сек при запуске модели Qwen3.6-27B. Это практический пример оптимизации локального инференса LLM.

score 21r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tb17bp/mtpggml_cuda_enable_unified_memory1_llamacpp/