Reddit17 июня 2026 г.

$11 000 на оценку Fable: SOTA-потенциал убит отказами модели (до блокировки Anthropic)

Автор потратил $11 000 на тестирование модели Fable на агентном бенчмарке WolfBench. Несмотря на SOTA-показатели, система провалилась из-за 40 000+ автоматических отказов, вызывающих бесконечные циклы таймаутов. Кейс наглядно показывает, как избыточные фильтры безопасности могут полностью блокировать работу автономных AI-агентов.

score 55r/ClaudeAI

reddit.comhttps://www.reddit.com/r/ClaudeAI/comments/1u7jnlw/spent_11k_evaluating_fable_capability_looked_sota/