Reddit15 мая 2026 г.

Я заставил маленькую модель учиться на своих ошибках: она достигла 80% на HumanEval и превзошла GPT-3.5 в математике

Автор провёл эксперимент по самообучению модели Qwen 2.5, используя её же сгенерированные задачи и исправления в качестве данных для дообучения. После устранения ошибки в системе оценки 7-миллиардная модель показала резкий рост с 25 до 112 правильных решений на HumanEval без участия человека. Исследование демонстрирует потенциал синтетических данных и верифицируемых наград для улучшения кодинговых навыков LLM.

score 58r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tde3m1/i_let_a_small_model_train_on_its_own_mistakes_it/