Reddit
Делайте бенчмарки реалистичными: почему тесты LLM часто не отражают реальность
Автор поста критикует сообщество за нереалистичные бенчмарки моделей и призывает учитывать реальные сценарии использования. В частности, рекомендуется тестировать работу с большим контекстом, мультимодальными данными и параллельными запросами. Без указания конкретной конфигурации железа такие тесты теряют ценность для разработчиков.
score 43r/LocalLLaMA