Reddit21 мая 2026 г.

Grok 4.3 возглавила рейтинг согласованности в бенчмарке угодливости LLM благодаря осторожному подходу

Новый тест измеряет склонность языковых моделей соглашаться с собеседником вместо объективной оценки. Grok 4.3 показала лучший результат, так как модель предпочитает не принимать поспешных решений без дополнительной информации. Исследование также сравнивает поведение других крупных моделей, включая GPT и Gemini, выявив высокую степень угодливости у некоторых из них.

score 30r/singularity

reddit.comhttps://www.reddit.com/r/singularity/comments/1tjr3g5/grok_43_tops_the_consistency_leaderboard_in_the/