Назад к дайджесту
Reddit

llama.cpp: ускорение генерации с MTP и объединённой памятью CUDA

Пользователь тестирует Multi-Token Prediction (MTP) в llama.cpp с флагом GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 на RTX 5090. Показано улучшение скорости генерации с 49 токенов/сек до 64 токенов/сек при запуске модели Qwen3.6-27B. Это практический пример оптимизации локального инференса LLM.

score 21r/LocalLLaMA