Назад к дайджесту
Reddit

easyaligner: Принудительное выравнивание с ускорением на GPU и гибкой нормализацией текста

easyaligner — это библиотека для принудительного выравнивания аудио и текста, использующая GPU-ускорение и совместимая с моделями wav2vec2 из Hugging Face Hub. Инструмент автоматически определяет релевантные участки аудио, поддерживает нормализацию текста и обрабатывает длинные сегменты без чанкования. Решение значительно упрощает предобработку данных для обучения и тестирования speech-to-text моделей.

score 15r/MachineLearning