Reddit
Needle: Мы дистиллировали вызов инструментов Gemini в модель на 26 миллионов параметров
Открыт исходный код модели Needle на 26 миллионов параметров, оптимизированной для вызова инструментов на потребительских устройствах. Архитектура использует только механизмы внимания без MLP-блоков, обеспечивая высокую скорость инференса и превосходя более крупные модели в задачах function calling. Исследование подтверждает, что для задач с внешним знанием (RAG, агенты) параметры FFN могут быть избыточны.
score 100r/LocalLLaMA