Новость
KV-кэш, экспертное сообщество и критическое мышление
Автор ставит под сомнение общепринятое объяснение работы механизма внимания в трансформерах, касающееся причинности и направления обзора. В статье приводится эксперимент с нейросетью для проверки гипотезы о том, может ли слово ссылаться на последующие токены в контексте. Материал полезен для понимания внутренних процессов работы современных LLM.