Reddit12 мая 2026 г.

Кэширование промптов для RL-тренингов: ускорение в 7.5 раз

Обычные открытые RL-движки тратят до 5x лишних вычислений на повторный прогон длинных промптов при обучении. Предложенный метод кэширует промпт с корректным прохождением градиентов, обеспечивая ускорение до 7.5 раз на задачах с длинным контекстом и коротким ответом. Оптимизация протестирована на модели Qwen3.5-4B и применима к полным и линейным слоям внимания.

score 15r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tage06/prompt_caching_but_for_rl_training_75x_speedup_on/