Reddit
Открытое руководство по масштабному инференсу LLM: GPU-интерфейсы, кэш KV, батчинг и фреймворки (vLLM, SGLang, TensorRT-LLM)
Автор создал открытое руководство по внутренностям масштабного инференса LLM, детально разбирая работу GPU, иерархию памяти и узкие места производительности. В материале освещаются ключевые техники оптимизации: кэш KV, батчинг, а также обзор фреймворков vLLM, SGLang и TensorRT-LLM. Проект открыт для обратной связи и правок от инженеров, работающих с инференсом в продакшене.
score 40r/MachineLearning