Назад к дайджесту
Reddit

ProgramBench: Можно ли пересобрать огромные бинарники с нуля? (Пока нет)

Facebook Research представили ProgramBench — бенчмарк для оценки способности ИИ-агентов воссоздавать программы с нуля, имея на входе только исполняемый файл и документацию. В наборе 200 задач и 6 миллионов поведенческих тестов, при этом агентам запрещено использовать интернет или декompиляцию. Инструмент открыт для сообщества и позволяет объективно сравнивать возможности языковых моделей в задачах генерации кода.

score 100r/LocalLLaMA