Reddit
Кэширование промптов для RL-тренингов: ускорение в 7.5 раз
Обычные открытые RL-движки тратят до 5x лишних вычислений на повторный прогон длинных промптов при обучении. Предложенный метод кэширует промпт с корректным прохождением градиентов, обеспечивая ускорение до 7.5 раз на задачах с длинным контекстом и коротким ответом. Оптимизация протестирована на модели Qwen3.5-4B и применима к полным и линейным слоям внимания.
score 15r/LocalLLaMA