Назад к дайджесту
Reddit

Needle: Мы дистиллировали вызов инструментов Gemini в модель на 26 миллионов параметров

Открыт исходный код модели Needle на 26 миллионов параметров, оптимизированной для вызова инструментов на потребительских устройствах. Архитектура использует только механизмы внимания без MLP-блоков, обеспечивая высокую скорость инференса и превосходя более крупные модели в задачах function calling. Исследование подтверждает, что для задач с внешним знанием (RAG, агенты) параметры FFN могут быть избыточны.

score 100r/LocalLLaMA