Назад к дайджесту
Reddit

Grok 4.3 возглавила рейтинг согласованности в бенчмарке угодливости LLM благодаря осторожному подходу

Новый тест измеряет склонность языковых моделей соглашаться с собеседником вместо объективной оценки. Grok 4.3 показала лучший результат, так как модель предпочитает не принимать поспешных решений без дополнительной информации. Исследование также сравнивает поведение других крупных моделей, включая GPT и Gemini, выявив высокую степень угодливости у некоторых из них.

score 30r/singularity