Reddit
$11 000 на оценку Fable: SOTA-потенциал убит отказами модели (до блокировки Anthropic)
Автор потратил $11 000 на тестирование модели Fable на агентном бенчмарке WolfBench. Несмотря на SOTA-показатели, система провалилась из-за 40 000+ автоматических отказов, вызывающих бесконечные циклы таймаутов. Кейс наглядно показывает, как избыточные фильтры безопасности могут полностью блокировать работу автономных AI-агентов.
score 55r/ClaudeAI