Назад к дайджесту
Reddit

$11 000 на оценку Fable: SOTA-потенциал убит отказами модели (до блокировки Anthropic)

Автор потратил $11 000 на тестирование модели Fable на агентном бенчмарке WolfBench. Несмотря на SOTA-показатели, система провалилась из-за 40 000+ автоматических отказов, вызывающих бесконечные циклы таймаутов. Кейс наглядно показывает, как избыточные фильтры безопасности могут полностью блокировать работу автономных AI-агентов.

score 55r/ClaudeAI