Reddit
Prefill как сервис: кэш KV моделей нового поколения может работать между дата-центрами
Команда Moonshot (Kimi) представила гибридную модель Kimi Linear, сокращающую размер кэша KV. Это позволяет реализовать дисагрегацию Prefill/Decode между дата-центрами, снижая стоимость токена и увеличивая пропускную способность.
score 27r/LocalLLaMA