Reddit
Резкое ускорение обработки промптов для частично выгруженных на CPU моделей в llama.cpp
Автор показал, как увеличение микро-батча в llama.cpp позволяет ускорить обработку промптов в 5.5 раз для модели gpt-oss-120b на RTX 3090. Для этого пришлось вынести часть MoE-слоёв на CPU, что дало компромисс: рост скорости префилла и небольшое снижение скорости генерации. Практический пример оптимизации локального инференса больших языковых моделей.
score 37r/LocalLLaMA