Reddit
Подтверждено: SWE Bench теперь — эталонный бенчмарк
SWE Bench — это популярный набор тестов для оценки способностей языковых моделей решать задачи программирования. Новость подтверждает значительное обновление методологии, что делает бенчмарк более надёжным инструментом для сравнения моделей в области ИИ.
score 100r/LocalLLaMA