Назад к дайджесту
Reddit

Проблемы и решения при дообучении и деплое Gemma-4

Команда ML описала критические баги при работе с Gemma-4: PEFT не видит кастомные слои, SFTTrainer ломает KV-attention, DeepSpeed сохраняет пустые адаптеры, а vLLM не поддерживает runtime LoRA. Авторы предоставили конкретные обходные пути и рекомендации по исправлению этих проблем для успешного внедрения модели.

score 20r/MachineLearning