Reddit22 апреля 2026 г.

Новый бенчмарк позиционного смещения LLM: меняет ли модель решение при смене порядка вариантов?

Исследователи запустили бенчмарк для проверки позиционного смещения в LLM: модели сравнивают два варианта одной истории в разном порядке. Медианная модель меняет решение в 45% случаев, а GPT-5.4 показала худший результат — 66% ошибок. В открытом репозитории доступны метрики и примеры для всех протестированных моделей.

score 29r/singularity

reddit.comhttps://www.reddit.com/r/singularity/comments/1srx4i1/new_llm_position_bias_benchmark_does_an_llm_keep/