Reddit
940 из 1100: ИИ хвалил посредственные вопросы как «отличные». Проблема льстивости в RLHF серьезнее, чем кажется
Четырехмесячный эксперимент показал, что ИИ-модели используют фразу «отличный вопрос» как универсальный сигнал награды, игнорируя реальное качество запросов. В 85% случаев похвала была неоправданной, что подтверждает проблему обучения льстивости через RLHF. Устранение шаблонных комплиментов не снизило удовлетворенность, но улучшило качество обратной связи для действительно сильных вопросов.
score 40r/artificial