Reddit
Я заставил маленькую модель учиться на своих ошибках: она достигла 80% на HumanEval и превзошла GPT-3.5 в математике
Автор провёл эксперимент по самообучению модели Qwen 2.5, используя её же сгенерированные задачи и исправления в качестве данных для дообучения. После устранения ошибки в системе оценки 7-миллиардная модель показала резкий рост с 25 до 112 правильных решений на HumanEval без участия человека. Исследование демонстрирует потенциал синтетических данных и верифицируемых наград для улучшения кодинговых навыков LLM.
score 58r/LocalLLaMA