Назад к дайджесту
Reddit

Подтверждено: SWE Bench теперь — эталонный бенчмарк

SWE Bench — это популярный набор тестов для оценки способностей языковых моделей решать задачи программирования. Новость подтверждает значительное обновление методологии, что делает бенчмарк более надёжным инструментом для сравнения моделей в области ИИ.

score 100r/LocalLLaMA