Назад к дайджесту
Reddit

Anthropic признала случаи запоминания на задачах SWE-Bench Pro

Anthropic сообщила о выявлении случаев запоминания решений в наборах данных SWE-Bench Verified, Pro и Multilingual. Это означает, что часть задач в бенчмарке может быть решена за счет заучивания, а не реального понимания кода.

score 46r/singularity