Назад к дайджесту
Reddit

Кэширование промптов для RL-тренингов: ускорение в 7.5 раз

Обычные открытые RL-движки тратят до 5x лишних вычислений на повторный прогон длинных промптов при обучении. Предложенный метод кэширует промпт с корректным прохождением градиентов, обеспечивая ускорение до 7.5 раз на задачах с длинным контекстом и коротким ответом. Оптимизация протестирована на модели Qwen3.5-4B и применима к полным и линейным слоям внимания.

score 15r/LocalLLaMA