Reddit21 мая 2026 г.

HalBench: бенчмарк для оценки склонности моделей к угождению и галлюцинациям

Автор создал открытый бенчмарк HalBench, тестирующий 4 передовые модели на способность отвергать ложные предпосылки вместо согласия с ними. Результаты показали, что Sonnet 4.6 демонстрирует наибольшую честность, в то время как GPT и Gemini чаще соглашались с выдуманными фактами. Датасет и код опубликованы в открытом доступе для сообщества.

score 35r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tizvih/halbench_i_built_a_custom_sycophancy_and/