Назад к дайджесту
Reddit

DeepSeek V4 Pro разочаровала в рейтинге Arena (краудсорсинговый тест предпочтений, а не возможностей)

Модель DeepSeek V4 Pro показала слабые результаты в рейтинге LMSYS Chatbot Arena, основанном на предпочтениях пользователей. Важно отметить, что этот бенчмарк отражает субъективное мнение, а не объективные возможности модели. Обсуждение в сообществе подчеркивает разницу между восприятием качества и реальными метриками производительности.

score 38r/singularity