Reddit
Интересный вопрос от BDH: что, если память LLM будет жить в весах сети, а не в постоянно растущем KV-кэше?
Автор анализирует архитектуру BDH от Яна Чоровски, предлагающую хранить память LLM в весах сети вместо растущего KV-кэша. Идея использует активации нейронов в высокоразмерном пространстве для реализации внимания через графовую пропагацию. Это может решить проблему долговременной памяти трансформеров и изменить подход к линейнойизации внимания.
score 40r/singularity