Назад к дайджесту
Reddit

Инструмент для автогенерации данных обучения: модель совершенствуется, анализируя собственные ошибки

Автор описывает конвейер, где LLM генерирует пары инструкций и ответов, оценивает их качество, а неудачные примеры становятся основой для следующего цикла обучения. Процесс включает локальную оценку через Ollama и дообучение с помощью Unsloth на бесплатном GPU. Это практическая реализация идеи обучения на собственных ошибках модели.

score 15r/artificial