Назад к дайджесту
Reddit

GPT 5.5 (Codex) лидирует в гонке предсказаний будущего

Исследователи из Института Макса Планка представили FutureSim — среду для оценки способности ИИ-агентов предсказывать реальные события по временным срезам интернета. GPT 5.5 показала 25% точности, превзойдя Opus 4.6 (20%) и значительно опередив открытые модели вроде DeepSeek V4 (13%) и Qwen3.6 Plus (5%). В некоторых тестах, включая рынок ставок на Супербоул, модель превзошла коллективный разум людей.

score 31r/OpenAI