Назад к дайджесту
Reddit

Результаты ProgramBench для Fable 5: удвоение показателей Opus 4.8 даже при фолбэке на 4.8 в 99% случаев

В тесте ProgramBench модель Fable 5 превзошла Opus 4.8, при этом механизм fallback на версию 4.8 приводит к удвоению потребления токенов. Автор поста отмечает разницу в эффективности работы модели при быстрых переключениях между версиями. Это исследование затрагивает вопросы оптимизации LLM и использования гибридных архитектур.

score 40r/singularity