Reddit6 мая 2026 г.

ProgramBench: Могут ли LLM воссоздать программы с нуля?

Новый бенчмарк ProgramBench проверяет способность ИИ-агентов восстанавливать исходный код по скомпилированному бинарному файлу и документации. На текущий момент ни одна модель не набрала очков, что демонстрирует сложность задачи полного реверс-инжиниринга с помощью генеративных моделей. Это важный тест для оценки реальных возможностей LLM в инженерии ПО.

score 21r/singularity

reddit.comhttps://www.reddit.com/r/singularity/comments/1t582ln/programbench_can_llms_rebuild_programs_from/