Reddit15 мая 2026 г.

Протестировали RAG-чатбота: самая дорогая модель оказалась худшей. Что реально улучшило метрики

Автор делится опытом оценки RAG-системы для техподдержки, где выяснилось, что проблемы часто связаны с поиском контекста, а не с выбором модели. Выяснилось, что эвристические метрики вводят в заблуждение, поэтому лучше использовать LLM-судью. Также описаны методы очистки контекста для снижения галлюцинаций.

score 28r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1tdusvx/evaluated_a_rag_chatbot_and_the_most_expensive/