Reddit
easyaligner: Принудительное выравнивание с ускорением на GPU и гибкой нормализацией текста
easyaligner — это библиотека для принудительного выравнивания аудио и текста, использующая GPU-ускорение и совместимая с моделями wav2vec2 из Hugging Face Hub. Инструмент автоматически определяет релевантные участки аудио, поддерживает нормализацию текста и обрабатывает длинные сегменты без чанкования. Решение значительно упрощает предобработку данных для обучения и тестирования speech-to-text моделей.
score 15r/MachineLearning