Reddit
DeepSeek-V4-Flash W4A16+FP8 с MTP-спекуляцией: 85 ток/с на 524k контекста на 2× RTX PRO 6000 Max-Q
Разработчик оптимизировал модель DeepSeek-V4-Flash, внедрив MTP-спекуляцию и квантование W4A16+FP8, что увеличило скорость генерации до 85 ток/с на 524k контекста. Исправления в vLLM и GPTQ-проход позволили запустить 671B модель на двух видеокартах по 96 ГБ с приростом производительности на 62%. Качество модели сохранено: 93% на GSM8K и 90% на HumanEval.
score 49r/LocalLLaMA