Reddit
ProgramBench: Можно ли пересобрать огромные бинарники с нуля? (Пока нет)
Facebook Research представили ProgramBench — бенчмарк для оценки способности ИИ-агентов воссоздавать программы с нуля, имея на входе только исполняемый файл и документацию. В наборе 200 задач и 6 миллионов поведенческих тестов, при этом агентам запрещено использовать интернет или декompиляцию. Инструмент открыт для сообщества и позволяет объективно сравнивать возможности языковых моделей в задачах генерации кода.
score 100r/LocalLLaMA