Reddit
Модели Unsloth действительно так хороши, как пишут?
Пользователь сравнивает скорость работы стандартных квантованных моделей Qwen и оптимизированных версий от Unsloth на MacBook. Отмечает значительный прирост производительности (с 39 до 57 токенов в секунду) благодаря анализу чувствительности слоёв и адаптивной квантовке. Вопрос аудитории касается сохранения качества модели при таком ускорении.
score 100r/LocalLLaMA