Назад к дайджесту
GitHub

lechmazur/sycophancy: Бенчмарк угодливости LLM

Репозиторий представляет собой бенчмарк и лидерборд для оценки моделей LLM на предмет угодливости, противоречий повествования и согласованности суждений. Инструмент измеряет склонность нейросетей к соглашению с пользователем вместо объективной оценки. Полезен для исследователей, работающих над безопасностью и выравниванием больших языковых моделей.

241 forksscore 65.6
leaderboardevaluationsllmconsistencysycophancybenchmarknarrator-biascontradiction