Reddit26 апреля 2026 г.

Точный расчёт потребления KV-кэша в DeepSeek V4

Автор детально пересчитывает реальное потребление памяти KV-кэша для моделей DeepSeek V3 и V4 при работе с контекстом в 1 млн токенов. Расчёты показывают, что архитектура V4 сокращает требования к памяти в 7-8 раз по сравнению с предыдущей версией, что критично для инференса. Это открывает возможность запуска моделей на доступном оборудовании через llama.cpp.

score 90r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1svzlog/the_exact_kv_cache_usage_of_deepseek_v4/