Reddit
Протестировали RAG-чатбота: самая дорогая модель оказалась худшей. Что реально улучшило метрики
Автор делится опытом оценки RAG-системы для техподдержки, где выяснилось, что проблемы часто связаны с поиском контекста, а не с выбором модели. Выяснилось, что эвристические метрики вводят в заблуждение, поэтому лучше использовать LLM-судью. Также описаны методы очистки контекста для снижения галлюцинаций.
score 28r/LocalLLaMA