Reddit20 июня 2026 г.

Открытое руководство по масштабному инференсу LLM: GPU-интерфейсы, кэш KV, батчинг и фреймворки (vLLM, SGLang, TensorRT-LLM)

Автор создал открытое руководство по внутренностям масштабного инференса LLM, детально разбирая работу GPU, иерархию памяти и узкие места производительности. В материале освещаются ключевые техники оптимизации: кэш KV, батчинг, а также обзор фреймворков vLLM, SGLang и TensorRT-LLM. Проект открыт для обратной связи и правок от инженеров, работающих с инференсом в продакшене.

score 40r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1uavduv/an_open_handbook_on_llm_inference_at_scale_gpu/