Назад к дайджесту
Reddit

Новый бенчмарк позиционного смещения LLM: меняет ли модель решение при смене порядка вариантов?

Исследователи запустили бенчмарк для проверки позиционного смещения в LLM: модели сравнивают два варианта одной истории в разном порядке. Медианная модель меняет решение в 45% случаев, а GPT-5.4 показала худший результат — 66% ошибок. В открытом репозитории доступны метрики и примеры для всех протестированных моделей.

score 29r/singularity