Reddit
PACT: бенчмарк прямых переговоров LLM — 20 раундов торга между агентами
Новый бенчмарк PACT оценивает способность языковых моделей вести переговоры в условиях неполной информации, включая элементы убеждения, обмана и адаптации. Тестирование включает тысячи матчей между агентами-покупателями и продавцами, ранжируя модели по рейтингу Glicko-2. Исследование демонстрирует эффективность различных моделей в многоходовых стратегиях и динамике сделки.
score 34r/singularity