Reddit5 мая 2026 г.

ProgramBench: Можно ли пересобрать огромные бинарники с нуля? (Пока нет)

Facebook Research представили ProgramBench — бенчмарк для оценки способности ИИ-агентов воссоздавать программы с нуля, имея на входе только исполняемый файл и документацию. В наборе 200 задач и 6 миллионов поведенческих тестов, при этом агентам запрещено использовать интернет или декompиляцию. Инструмент открыт для сообщества и позволяет объективно сравнивать возможности языковых моделей в задачах генерации кода.

score 100r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t4j4s9/programbench_can_we_really_rebuild_huge_binaries/