Reddit9 мая 2026 г.

DeepSeek V4: опубликована полная версия статьи с деталями FP4 QAT и методами обеспечения стабильности

DeepSeek опубликовали полную версию технической статьи по модели V4, раскрыв детали FP4 Quantization Aware Training и механизмов стабилизации обучения. Архитектура обеспечивает до 90% снижения FLOPs и KV cache за счёт квантования MoE весов и специфических трюков вроде anticipatory routing. В сравнительных тестах V4-Pro превосходит Gemini 3.1 Pro и Opus 4.6 Max в задачах письма и кодинга, демонстрируя готовность к промышленному использованию.

score 28r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1t7yrvr/deepseek_v4_paper_full_version_is_out_fp4_qat/