Reddit
Grok 4.3 уступает Grok 4.20 0309 в Extended NYT Connections: падение метрики с 93.4 до 67.5 при снижении затрат
Модель Grok 4.3 продемонстрировала снижение точности на бенчмарке Extended NYT Connections по сравнению с версией 4.20 0309. Несмотря на падение результата с 93.4 до 67.5 баллов, запуск новой версии оказался экономически выгоднее. Ссылка на репозиторий с данными теста доступна в исходном материале.
score 50r/singularity