Reddit27 апреля 2026 г.

Подтверждено: SWE Bench теперь — эталонный бенчмарк

SWE Bench — это популярный набор тестов для оценки способностей языковых моделей решать задачи программирования. Новость подтверждает значительное обновление методологии, что делает бенчмарк более надёжным инструментом для сравнения моделей в области ИИ.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1swfdbj/confirmed_swe_bench_is_now_a_benchmaxxed_benchmark/