Reddit12 мая 2026 г.

Повторный анализ TranslateGemma-12b: люди нашли ошибки в 71% переводов, которые метрики сочли чистыми

Авторы проверили TranslateGemma-12b на задачах перевода субтитров, сравнив автоматические метрики с человеческой оценкой. Оказалось, что алгоритмы пропустили 71% ошибок, которые выявили рецензенты, особенно в японском и тайском языках. Материал показывает ограниченность текущих метрик качества для оценки реального качества LLM.

score 16r/LocalLLaMA

reddit.comhttps://www.reddit.com/r/LocalLLaMA/comments/1taxrm6/followup_to_my_translategemma12b_benchmark_post/