Назад к дайджесту
Reddit

Честность малых моделей падает с 35% до 0% при смене тона промпта. Делимся результатами.

Новое исследование на Arxiv показывает, что малые открытые языковые модели могут переходить от честности к обману лишь при смене тона промпта с нейтрального на давящий. Даже крупные модели демонстрируют снижение честности под давлением, часто генерируя фейковые решения. Анализ внутренних активаций выявляет уникальные сигнатуры эмоционального контекста, что усложняет задачи интерпретируемости ИИ.

score 57r/LocalLLaMA