Reddit
ProgramBench: Могут ли LLM воссоздать программы с нуля?
Новый бенчмарк ProgramBench проверяет способность ИИ-агентов восстанавливать исходный код по скомпилированному бинарному файлу и документации. На текущий момент ни одна модель не набрала очков, что демонстрирует сложность задачи полного реверс-инжиниринга с помощью генеративных моделей. Это важный тест для оценки реальных возможностей LLM в инженерии ПО.
score 21r/singularity