Reddit
METR оценила раннюю версию модели Claude Mythos
Организация METR провела оценку ранней версии модели Claude Mythos Preview, определив её временной горизонт задач не менее 16 часов. Исследователи предупреждают, что текущий набор задач недостаточно точен для надёжных количественных сравнений на этом уровне сложности. В METR работают над обновлением методологии для более точного измерения возможностей продвинутых моделей.
score 100r/singularity