Назад к дайджесту
Reddit

Аблитеритика: бенчмарки и анализ тензоров Qwen 3/3.5 против HauhauCS, Heretic и Huihui

Автор провёл глубокое исследование методов «аблитерации» (снятия цензуры) на моделях Qwen 3 и 3.5, сравнивая техники HauhauCS, Heretic и Huihui. Проведены бенчмарки, оценка безопасности HarmBench и анализ весов с использованием KL-дивергенции. Результаты открыты на HuggingFace для независимой проверки сообществом.

score 52r/LocalLLaMA