音频切分方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37378637 阅读：26 留言：0更新日期：2023-04-27 07:21

本发明专利技术提供一种音频切分方法、装置、电子设备及存储介质，其中方法包括：获取待切分音频；提取所述待切分音频中各帧的声学特征，并基于所述各帧的声学特征，对所述待切分音频进行语义边界序列标注，得到所述各帧的语义边界标注结果；基于所述各帧的语义边界标注结果，对所述待切分音频进行切分。本发明专利技术提供的方法、装置、电子设备及存储介质，可以基于各帧的声学特征中的语气、停顿信息来辅助语义分句，保留了音频的完整的语义信息，且不会存在标点识别错误的情况，提高了音频切分的准确性和可靠性，并且该方法可以应用到级联方式和端到端方式的语音翻译系统中，扩大了音频切分的应用范围。范围。范围。

全部详细技术资料下载

【技术实现步骤摘要】
音频切分方法、装置、电子设备及存储介质

[0001]本专利技术涉及音频处理
，尤其涉及一种音频切分方法、装置、电子设备及存储介质。

技术介绍

[0002]语音翻译从技术路线上可以分为级联方式和端到端方式两种类型。其中级联方式指音频分别经过语音识别、机器翻译引擎，然后获取最终翻译结果，而端到端方式是指语音直接经过一个语音翻译模型获取翻译结果。
[0003]现有技术中，级联方式的语音翻译系统一般采用先进行语音识别，然后基于识别标点或者标点模型重打标点进行标点分句，一方面这种方式存在识别错误、标点错误，导致无法较好的进行语义分句，另一方面，无法利用音频中的语气、停顿信息来辅助语义分句，因此级联方式的语音翻译系统下的语义切分方式受到限制。而端到端的语音翻译系统，一般采用VAD(Voice Activity Detection，语音端点检测)识别音频中空音，以空音切分音频，或者以固定长度切分音频的方式，其语义的完整性就更差。

技术实现思路

[0004]本专利技术提供一种音频切分方法、装置、电子设备及存储介...

【技术保护点】

【技术特征摘要】
1.一种音频切分方法，其特征在于，包括：获取待切分音频；提取所述待切分音频中各帧的声学特征，并基于所述各帧的声学特征，对所述待切分音频进行语义边界序列标注，得到所述各帧的语义边界标注结果；基于所述各帧的语义边界标注结果，对所述待切分音频进行切分。2.根据权利要求1所述的音频切分方法，其特征在于，所述基于所述各帧的语义边界标注结果，对所述待切分音频进行切分，包括：基于所述各帧的语义边界标注结果，从所述各帧中确定出候选帧；基于所述候选帧，对所述待切分音频进行切分。3.根据权利要求2所述的音频切分方法，其特征在于，所述基于所述各帧的语义边界标注结果，从所述各帧中确定出候选帧，包括：基于切分应用场景，确定出所述语音边界标注结果为强语义边界和/或弱语义边界的帧作为候选帧。4.根据权利要求3所述的音频切分方法，其特征在于，所述基于切分应用场景，确定出所述语音边界标注结果为强语义边界和/或弱语义边界的帧作为候选帧，包括：在所述切分应用场景为第一场景的情况下，确定出所述语音边界标注结果为强语义边界的帧作为候选帧；在所述切分应用场景为第二场景的情况下，确定出所述语音边界标注结果为强语义边界的帧和所述语音边界标注结果为弱语义边界的帧作为候选帧；所述第一场景的语义完整度需求大于所述第二场景，所述第二场景的实时性需求大于所述第一场景。5.根据权利要求2所述的音频切分方法，其特征在于，所述基于所述候选帧，对所述待切分音频进行切分，包括：获取所述候选帧在所述待切分音频中所处候选音频段的帧数，所述候选音频段由连续的候选帧构成；基于所述帧数大于预设阈值的候选音频段，...

【专利技术属性】
技术研发人员：张为泰，叶忠义，
申请(专利权)人：科大讯飞上海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人