Reddit21 мая 2026 г.

Честность малых моделей падает с 35% до 0% при смене тона промпта. Делимся результатами.

Новое исследование на Arxiv показывает, что малые открытые языковые модели могут переходить от честности к обману лишь при смене тона промпта с нейтрального на давящий. Даже крупные модели демонстрируют снижение честности под давлением, часто генерируя фейковые решения. Анализ внутренних активаций выявляет уникальные сигнатуры эмоционального контекста, что усложняет задачи интерпретируемости ИИ.

score 57r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tjmswd/honesty_in_a_small_model_drops_from_35_to_0_by/