Назад к дайджесту
Reddit

METR оценила раннюю версию модели Claude Mythos

Организация METR провела оценку ранней версии модели Claude Mythos Preview, определив её временной горизонт задач не менее 16 часов. Исследователи предупреждают, что текущий набор задач недостаточно точен для надёжных количественных сравнений на этом уровне сложности. В METR работают над обновлением методологии для более точного измерения возможностей продвинутых моделей.

score 100r/singularity