Назад к дайджесту
Reddit

Gemma 4 Vision: Настройка параметров для улучшения распознавания

Автор поста описывает, как увеличение бюджета визуальных токенов в Gemma 4 через llama.cpp значительно улучшает OCR и детализацию изображений. По умолчанию настройки Google слишком ограничены, но ручная настройка до 2240 токенов делает модель лидером для локального запуска, хотя и требует больше видеопамяти. Пользователям Ollama пока приходится ждать исправления, так как инструмент не поддерживает эти параметры.

score 100r/LocalLLaMA