Reddit
Аблитеритика: бенчмарки и анализ тензоров Qwen 3/3.5 против HauhauCS, Heretic и Huihui
Автор провёл глубокое исследование методов «аблитерации» (снятия цензуры) на моделях Qwen 3 и 3.5, сравнивая техники HauhauCS, Heretic и Huihui. Проведены бенчмарки, оценка безопасности HarmBench и анализ весов с использованием KL-дивергенции. Результаты открыты на HuggingFace для независимой проверки сообществом.
score 52r/LocalLLaMA