Reddit
Anthropic признала случаи запоминания на задачах SWE-Bench Pro
Anthropic сообщила о выявлении случаев запоминания решений в наборах данных SWE-Bench Verified, Pro и Multilingual. Это означает, что часть задач в бенчмарке может быть решена за счет заучивания, а не реального понимания кода.
score 46r/singularity