Назад к дайджесту
Reddit

Протестировали RAG-чатбота: самая дорогая модель оказалась худшей. Что реально улучшило метрики

Автор делится опытом оценки RAG-системы для техподдержки, где выяснилось, что проблемы часто связаны с поиском контекста, а не с выбором модели. Выяснилось, что эвристические метрики вводят в заблуждение, поэтому лучше использовать LLM-судью. Также описаны методы очистки контекста для снижения галлюцинаций.

score 28r/LocalLLaMA