Reddit8 мая 2026 г.

Делайте бенчмарки реалистичными: почему тесты LLM часто не отражают реальность

Автор поста критикует сообщество за нереалистичные бенчмарки моделей и призывает учитывать реальные сценарии использования. В частности, рекомендуется тестировать работу с большим контекстом, мультимодальными данными и параллельными запросами. Без указания конкретной конфигурации железа такие тесты теряют ценность для разработчиков.

score 43r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1t79nq0/rant_make_your_benchmarks_realistic/