Reddit
Artificial Analysis представила индекс Coding Agent Index: сравнение моделей и сред
Сервис Artificial Analysis запустил новый индекс для оценки кодинговых агентов, включающий три ключевых бенчмарка: SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 и SWE-Atlas-QnA. Инструмент позволяет сравнивать производительность различных моделей и сред выполнения на реальных задачах программирования и системного администрирования.
score 79r/singularity