Назад к дайджесту
Reddit

Prefill как сервис: кэш KV моделей нового поколения может работать между дата-центрами

Команда Moonshot (Kimi) представила гибридную модель Kimi Linear, сокращающую размер кэша KV. Это позволяет реализовать дисагрегацию Prefill/Decode между дата-центрами, снижая стоимость токена и увеличивая пропускную способность.

score 27r/LocalLLaMA