Reddit
Маршрутизация LLM по уровню проверяемости задач: эксперимент с тремя моделями по методологии Карпатхи
Автор провёл эксперимент с 120 задачами и тремя моделями (Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B), чтобы проверить, могут ли более слабые модели справляться с задачами высокой проверяемости так же хорошо, как флагманские модели, при наличии верификатора ошибок. Результаты показали, что для задач с высокой проверяемостью (код, структурированные данные) разница между моделями минимальна, особенно при повторных попытках, тогда как для задач с низкой проверяемостью (логика, креатив) разрыв остаётся значительным. Эксперимент подтверждает идею Карпатхи о том, что верифицируемость задачи определяет, насколько критична мощность модели.
score 40r/MachineLearning