Reddit13 июня 2026 г.

Маршрутизация LLM по уровню проверяемости задач: эксперимент с тремя моделями по методологии Карпатхи

Автор провёл эксперимент с 120 задачами и тремя моделями (Claude Sonnet 4.6, GPT 5.5, Mistral 3 8B), чтобы проверить, могут ли более слабые модели справляться с задачами высокой проверяемости так же хорошо, как флагманские модели, при наличии верификатора ошибок. Результаты показали, что для задач с высокой проверяемостью (код, структурированные данные) разница между моделями минимальна, особенно при повторных попытках, тогда как для задач с низкой проверяемостью (логика, креатив) разрыв остаётся значительным. Эксперимент подтверждает идею Карпатхи о том, что верифицируемость задачи определяет, насколько критична мощность модели.

score 40r/MachineLearning

reddit.comhttps://www.reddit.com/r/MachineLearning/comments/1u2c04u/routing_llms_by_task_verifiability_a_small/