Reddit
Случайное открытие: обновление знаний в замороженных MoE-моделях через управление маршрутизацией экспертов без дообучения
Автор утверждает, что нашёл способ внедрять новые знания в замороженные модели архитектуры MoE, просто управляя паттернами маршрутизации экспертов. Метод не требует изменения весов, дообучения или RAG — достаточно небольшого файла с записанными паттернами. Представлен инструмент mnemic-mre для тестирования на Gemma 4, хотя проект находится на ранней стадии.
score 53r/LocalLLaMA