Назад к дайджесту
Reddit

Gemma 4: MLX не превосходит GGUF по производительности

Пользователь сравнивает производительность моделей Gemma 4-26B в форматах MLX и GGUF на M1 Max с 32GB RAM. Результаты показывают, что GGUF обрабатывает промпт быстрее (4.28s против 6.32s), а скорость генерации токенов практически идентична (52.49 vs 51.61 t/s). Автор ищет объяснения, почему Apple-ориентированный MLX не даёт ожидаемого преимущества.

score 37r/LocalLLaMA