音频处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：38812231 阅读：12 留言：0更新日期：2023-09-15 19:51

本申请提供了一种音频处理方法、装置、设备、存储介质及程序产品，涉及音视频技术领域。该方法包括：获取第一音频；对第一音频进行语音定位，获得第一音频中的至少一个目标音频段落；该目标音频段落是包括语音的音频段落；获取至少一个目标音频段落的音频特征；基于至少一个目标音频段落的音频特征进行语种识别，获得至少一个目标音频段落各自的语种类型；基于至少一个目标音频段落各自的语种类型，获取第一音频的语种类型。通过上述方法，避免了获取第一音频的语种类型的过程中的人工标注过程，简化了语种识别的过程，提高了获取音视频内容的语种类型的效率，提高了获取语种类型的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、设备、存储介质及程序产品

[0001]本申请实施例涉及音视频
，特别涉及一种音频处理方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着线上平台的发展，线上平台中的内容逐渐增加；为了便于对线上音视频进行管理和推荐，线上平台通常会对线上音视频进行分类和管理；比如，基于语种类型对音视频内容进行分类。
[0003]在相关技术中，在对音视频内容进行分类时，计算机设备可以利用语音识别技术，对音视频内容中包含的语音信息进行识别，将语音信息转换为文本信息，之后，再基于文本信息进行语种分类，获得音视频内容的语种类型。
[0004]然而，上述过程中基于文本进行语种分类的过程中需要相关人员进行标注，从而使得获取音视频内容的语种类型的效率较低，准确性较差。

技术实现思路

[0005]本申请实施例提供了一种音频处理方法、装置、设备、存储介质及程序产品，可以避免获取第一音频的语种类型的过程中的人工标注过程，简化语种识别的过程，从而提高获取音视频内容的语种类型的效率以及获取语种类型的准确性。该技术方案如下：
[0006]一方面，提供了一种音频处理方法，所述方法包括：
[0007]获取第一音频；
[0008]对所述第一音频进行语音定位，获得所述第一音频中的至少一个目标音频段落；所述目标音频段落是包含语音的音频段落；
[0009]获取至少一个所述目标音频段落的音频特征；
[0010]基于至少一个所述目标音频段落的音频特征进行语种识别，获得...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括：获取第一音频；对所述第一音频进行语音定位，获得所述第一音频中的至少一个目标音频段落；所述目标音频段落是包含语音的音频段落；获取至少一个所述目标音频段落的音频特征；基于至少一个所述目标音频段落的音频特征进行语种识别，获得至少一个所述目标音频段落各自的语种类型；基于至少一个所述目标音频段落各自的语种类型，获取所述第一音频的语种类型。2.根据权利要求1所述的方法，其特征在于，所述获取至少一个所述目标音频段落的音频特征，包括：基于语种识别网络中的第一特征提取层对至少一个所述目标音频段落分别进行处理，获得至少一个所述目标音频段落的音频特征；所述基于至少一个所述目标音频段落的音频特征进行语种识别，获得至少一个所述目标音频段落各自的语种类型，包括：基于所述语种识别网络中的语种识别层分别对至少一个所述目标音频段落的音频特征进行处理，获得至少一个目标音频段落各自的语种类型；其中，所述语种识别网络是基于样本音频片段以及所述样本音频片段的语种标签训练获得的网络。3.根据权利要求1所述的方法，其特征在于，所述对所述第一音频进行语音定位，获得第一音频中的至少一个目标音频段落，包括：对所述第一音频进行语音定位，获得至少一个所述目标音频段落的时间信息；所述时间信息用以指示所述目标音频段落的起始时间以及结束时间；基于至少一个所述目标音频段落的所述时间信息，从所述第一音频中截取出至少一个所述目标音频段落。4.根据权利要求3所述的方法，其特征在于，所述对所述第一音频进行语音定位，获得至少一个所述目标音频段落的时间信息，包括：对所述第一音频进行音频特征提取，获得所述第一音频的音频特征；基于所述第一音频的音频特征对所述第一音频进行语音定位，获取至少一个所述目标音频段落的所述时间信息。5.根据权利要求4所述的方法，其特征在于，所述对所述第一音频进行音频特征提取，获得第一音频的音频特征，包括：提取所述第一音频的频谱特征；基于所述第一音频的所述频谱特征，生成所述第一音频的音频特征图；对所述第一音频的所述音频特征图进行特征提取，获得所述第一音频的音频特征。6.根据权利要求5所述的方法，其特征在于，所述对所述第一音频的所述音频特征图进行特征提取，获得所述第一音频的音频特征，包括：基于音频定位网络对所述第一音频的所述音频特征图进行处理，获得所述第一音频的音频特征；所述基于所述第一音频的音频特征对所述第一音频进行语音定位，获取至少一个所述
目标音频段落的所述时间信息，包括：基于所述音频定位网络中的音频分类层，对所述第一音频的音频特征进行处理，获得至少一个所述目标音频段落的所述时间信息；其中，所述音频定位网络是基于样本音频以及所述样本音频的音频段落标签训练获得的网络。7.根据权利要求1所述的方法，其特征在于，所述基于至少一个所述目标音频段落各自的语种类型，获取所述第一音频的语种类型，包括：基于至少一个所述目标音频段落各自的语种类型，统计至少一个所述目标音频段落中，属于各个语种类型的音频段落的数量；将所述各个语种类型中，包含所述目标音频段落的数量最多的语种类型，确定为所述第一音频的语种类型。8.根据权利要求1所述的方法，其特征在于，所述基于至少一个所述目标音频段落各自的语种类型，获取所述第一音频的语种类型，包括：基于至少一个所述目标音频段落各自...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人