Reddit
Grok 4.3 возглавила рейтинг согласованности в бенчмарке угодливости LLM благодаря осторожному подходу
Новый тест измеряет склонность языковых моделей соглашаться с собеседником вместо объективной оценки. Grok 4.3 показала лучший результат, так как модель предпочитает не принимать поспешных решений без дополнительной информации. Исследование также сравнивает поведение других крупных моделей, включая GPT и Gemini, выявив высокую степень угодливости у некоторых из них.
score 30r/singularity