Назад к дайджесту
Reddit

Повторный анализ TranslateGemma-12b: люди нашли ошибки в 71% переводов, которые метрики сочли чистыми

Авторы проверили TranslateGemma-12b на задачах перевода субтитров, сравнив автоматические метрики с человеческой оценкой. Оказалось, что алгоритмы пропустили 71% ошибок, которые выявили рецензенты, особенно в японском и тайском языках. Материал показывает ограниченность текущих метрик качества для оценки реального качества LLM.

score 16r/LocalLLaMA