Назад к дайджесту
Reddit

Делайте бенчмарки реалистичными: почему тесты LLM часто не отражают реальность

Автор поста критикует сообщество за нереалистичные бенчмарки моделей и призывает учитывать реальные сценарии использования. В частности, рекомендуется тестировать работу с большим контекстом, мультимодальными данными и параллельными запросами. Без указания конкретной конфигурации железа такие тесты теряют ценность для разработчиков.

score 43r/LocalLLaMA