Назад к дайджесту
Reddit

Случайное открытие: обновление знаний в замороженных MoE-моделях через управление маршрутизацией экспертов без дообучения

Автор утверждает, что нашёл способ внедрять новые знания в замороженные модели архитектуры MoE, просто управляя паттернами маршрутизации экспертов. Метод не требует изменения весов, дообучения или RAG — достаточно небольшого файла с записанными паттернами. Представлен инструмент mnemic-mre для тестирования на Gemma 4, хотя проект находится на ранней стадии.

score 53r/LocalLLaMA