Назад к дайджесту
Reddit

HalBench: бенчмарк для оценки склонности моделей к угождению и галлюцинациям

Автор создал открытый бенчмарк HalBench, тестирующий 4 передовые модели на способность отвергать ложные предпосылки вместо согласия с ними. Результаты показали, что Sonnet 4.6 демонстрирует наибольшую честность, в то время как GPT и Gemini чаще соглашались с выдуманными фактами. Датасет и код опубликованы в открытом доступе для сообщества.

score 35r/LocalLLaMA