Reddit
Локальный Qwen в роли валидатора кода: тесты квантования и контекста
Автор тестирует локальную модель Qwen 27B в качестве валидатора кода рядом с GitHub Copilot. Проведены замеры различных квантований и размеров контекста через llama.cpp, показавшие критическую важность 128k контекста. Результаты демонстрируют, что q8-квантование не снижает точность в данном сценарии, но требует больше памяти при больших контекстах.
score 13r/LocalLLaMA