Назад к дайджесту
Новость

KV-кэш, экспертное сообщество и критическое мышление

Автор ставит под сомнение общепринятое объяснение работы механизма внимания в трансформерах, касающееся причинности и направления обзора. В статье приводится эксперимент с нейросетью для проверки гипотезы о том, может ли слово ссылаться на последующие токены в контексте. Материал полезен для понимания внутренних процессов работы современных LLM.