Назад к дайджесту
Reddit

Точный расчёт потребления KV-кэша в DeepSeek V4

Автор детально пересчитывает реальное потребление памяти KV-кэша для моделей DeepSeek V3 и V4 при работе с контекстом в 1 млн токенов. Расчёты показывают, что архитектура V4 сокращает требования к памяти в 7-8 раз по сравнению с предыдущей версией, что критично для инференса. Это открывает возможность запуска моделей на доступном оборудовании через llama.cpp.

score 90r/LocalLLaMA