Reddit
DeepSeek V4: опубликована полная версия статьи с деталями FP4 QAT и методами обеспечения стабильности
DeepSeek опубликовали полную версию технической статьи по модели V4, раскрыв детали FP4 Quantization Aware Training и механизмов стабилизации обучения. Архитектура обеспечивает до 90% снижения FLOPs и KV cache за счёт квантования MoE весов и специфических трюков вроде anticipatory routing. В сравнительных тестах V4-Pro превосходит Gemini 3.1 Pro и Opus 4.6 Max в задачах письма и кодинга, демонстрируя готовность к промышленному использованию.
score 28r/MachineLearning