Назад к дайджесту
Reddit

Я заставил маленькую модель учиться на своих ошибках: она достигла 80% на HumanEval и превзошла GPT-3.5 в математике

Автор провёл эксперимент по самообучению модели Qwen 2.5, используя её же сгенерированные задачи и исправления в качестве данных для дообучения. После устранения ошибки в системе оценки 7-миллиардная модель показала резкий рост с 25 до 112 правильных решений на HumanEval без участия человека. Исследование демонстрирует потенциал синтетических данных и верифицируемых наград для улучшения кодинговых навыков LLM.

score 58r/LocalLLaMA