【技术实现步骤摘要】
本申请涉及计算机,具体而言,涉及一种音频文件识别方法及装置。
技术介绍
1、长音频文件的识别在音频转录领域具有重要应用,随着人工智能技术的发展,自动语音识别(asr,automatic speech recognition)系统通常使用基于深度学习的神经网络模型来对音频文件进行转写。由于现有的语音识别模型具有较大的参数量和计算复杂度,因此需要显卡加速才能保证识别的速度是用户可接受的。但由于显卡存储空间的限制,运行在显卡上的语音识别模型仍然无法一次性处理过长的音频文件。对于长音频文件的转写,现有的语音识别系统通过以下两种方式来处理:一种方式是流式处理:使用流式语音识别技术,可以实时地处理持续音频流,而不需要等待整个音频文件完全上传。这种方法适用于实时性要求高的场景。第二种方式是分段处理:将长音频文件切割成较短的片段,每个片段的时长可以根据使用场景的不同来调整。这些较短的片段更容易被处理,减少了内存和计算资源的需求。识别后的文本可以在后续合并或处理,但是,在对长音频文件进行切割分为多个较短片段时,首先需要确定片段长度。对于片段长度的确定,可
...【技术保护点】
1.一种音频文件识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,采用第一线程池中的第一线程按照所述待识别音频文件中的音频帧的排列顺序依次对所述待识别音频文件中音频帧进行处理,得到多个音频片段,包括:
3.根据权利要求2所述的方法,其特征在于,采用第二线程池中的第二线程依次对将所述多个音频片段进行识别得到多个识别结果,包括:
4.根据权利要求1所述的方法,其特征在于,将所述多个识别结果进行排序后进行拼接得到最终识别结果,包括:
5.根据权利要求4所述的方法,其特征在于,采用所述第二线程将所述多个识别
...【技术特征摘要】
1.一种音频文件识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,采用第一线程池中的第一线程按照所述待识别音频文件中的音频帧的排列顺序依次对所述待识别音频文件中音频帧进行处理,得到多个音频片段,包括:
3.根据权利要求2所述的方法,其特征在于,采用第二线程池中的第二线程依次对将所述多个音频片段进行识别得到多个识别结果,包括:
4.根据权利要求1所述的方法,其特征在于,将所述多个识别结果进行排序后进行拼接得到最终识别结果,包括:
5.根据权利要求4所述的方法,其特征在于,采用所述第二线程将所述多个识别结果进行排序后进行拼接得到所...
【专利技术属性】
技术研发人员:多文昕,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。