Reddit
Инструмент для автогенерации данных обучения: модель совершенствуется, анализируя собственные ошибки
Автор описывает конвейер, где LLM генерирует пары инструкций и ответов, оценивает их качество, а неудачные примеры становятся основой для следующего цикла обучения. Процесс включает локальную оценку через Ollama и дообучение с помощью Unsloth на бесплатном GPU. Это практическая реализация идеи обучения на собственных ошибках модели.
score 15r/artificial