Назад к дайджесту
Новость

Инференс LLM на K8s: выживание с большими моделями в Kubernetes. DRA, GIE, LLM-D

Статья разбирает архитектуру Kubernetes для высоконагруженного инференса LLM, объясняя специфику работы с языковыми моделями в распределённых системах. Автор описывает проблемы стандартного K8s в понимании запросов ИИ и предлагает решения для масштабирования, включая работу с контекстом и кэшированием.