Назад к дайджесту
Reddit

DeepSeek-V4-Flash W4A16+FP8 с MTP-спекуляцией: 85 ток/с на 524k контекста на 2× RTX PRO 6000 Max-Q

Разработчик оптимизировал модель DeepSeek-V4-Flash, внедрив MTP-спекуляцию и квантование W4A16+FP8, что увеличило скорость генерации до 85 ток/с на 524k контекста. Исправления в vLLM и GPTQ-проход позволили запустить 671B модель на двух видеокартах по 96 ГБ с приростом производительности на 62%. Качество модели сохранено: 93% на GSM8K и 90% на HumanEval.

score 49r/LocalLLaMA