Reddit
Разбор архитектуры DeepSeek V4: ключевые инсайты и дискуссия
Пост содержит разбор архитектуры DeepSeek V4 на основе технического отчёта, акцентируя внимание на гибридном внимании (CSA + HCA) и новых остаточных связях (mHC). Автор отмечает использование FP4 квантования при обучении и высокую стоимость локального запуска, указывая на перспективность Flash-версий и дистилляций. Материал представляет интерес для исследователей архитектуры LLM.
score 71r/LocalLLaMA