音频处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:38812231 阅读:12 留言:0更新日期:2023-09-15 19:51
本申请提供了一种音频处理方法、装置、设备、存储介质及程序产品,涉及音视频技术领域。该方法包括:获取第一音频;对第一音频进行语音定位,获得第一音频中的至少一个目标音频段落;该目标音频段落是包括语音的音频段落;获取至少一个目标音频段落的音频特征;基于至少一个目标音频段落的音频特征进行语种识别,获得至少一个目标音频段落各自的语种类型;基于至少一个目标音频段落各自的语种类型,获取第一音频的语种类型。通过上述方法,避免了获取第一音频的语种类型的过程中的人工标注过程,简化了语种识别的过程,提高了获取音视频内容的语种类型的效率,提高了获取语种类型的准确性。性。性。

【技术实现步骤摘要】
音频处理方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及音视频
,特别涉及一种音频处理方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着线上平台的发展,线上平台中的内容逐渐增加;为了便于对线上音视频进行管理和推荐,线上平台通常会对线上音视频进行分类和管理;比如,基于语种类型对音视频内容进行分类。
[0003]在相关技术中,在对音视频内容进行分类时,计算机设备可以利用语音识别技术,对音视频内容中包含的语音信息进行识别,将语音信息转换为文本信息,之后,再基于文本信息进行语种分类,获得音视频内容的语种类型。
[0004]然而,上述过程中基于文本进行语种分类的过程中需要相关人员进行标注,从而使得获取音视频内容的语种类型的效率较低,准确性较差。

技术实现思路

[0005]本申请实施例提供了一种音频处理方法、装置、设备、存储介质及程序产品,可以避免获取第一音频的语种类型的过程中的人工标注过程,简化语种识别的过程,从而提高获取音视频内容的语种类型的效率以及获取语种类型的准确性。该技术方案如下:
[0006]一方面,提供了一种音频处理方法,所述方法包括:
[0007]获取第一音频;
[0008]对所述第一音频进行语音定位,获得所述第一音频中的至少一个目标音频段落;所述目标音频段落是包含语音的音频段落;
[0009]获取至少一个所述目标音频段落的音频特征;
[0010]基于至少一个所述目标音频段落的音频特征进行语种识别,获得至少一个所述目标音频段落各自的语种类型;
[0011]基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型。
[0012]另一方面,提供了一种音频处理装置,所述装置包括:
[0013]音频获取模块,用于获取第一音频;
[0014]语音定位模块,用于对所述第一音频进行语音定位,获得所述第一音频中的至少一个目标音频段落;所述目标音频段落是包含语音的音频段落;
[0015]特征获取模块,用于获取至少一个所述目标音频段落的音频特征;
[0016]语种识别模块,用于基于至少一个所述目标音频段落的音频特征进行语种识别,获得至少一个所述目标音频段落各自的语种类型;
[0017]语种获取模块,用于基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型。
[0018]在一种可能的实现方式中,所述特征获取模块,用于基于语种识别网络中的第一特征提取层对至少一个所述目标音频段落分别进行处理,获得至少一个所述目标音频段落的音频特征;
[0019]所述语种识别模块,用于基于所述语种识别网络中的语种识别层分别对至少一个所述目标音频段落的音频特征进行处理,获得至少一个目标音频段落各自的语种类型;
[0020]其中,所述语种识别网络是基于样本音频片段以及所述样本音频片段的语种标签训练获得的网络。
[0021]在一种可能的实现方式中,所述语音定位模块,包括:
[0022]语音定位子模块,用于对所述第一音频进行语音定位,获得至少一个所述目标音频段落的时间信息;所述时间信息用以指示所述目标音频段落的起始时间以及结束时间;
[0023]段落截取子模块,用于基于至少一个所述目标音频段落的所述时间信息,从所述第一音频中截取出至少一个所述目标音频段落。
[0024]在一种可能的实现方式中,所述语音定位子模块,包括:
[0025]特征获取单元,用于对所述第一音频进行音频特征提取,获得所述第一音频的音频特征;
[0026]时间信息获取单元,用于基于所述第一音频的音频特征对所述第一音频进行语音定位,获取至少一个所述目标音频段落的所述时间信息。
[0027]在一种可能的实现方式中,所述特征获取单元,用于,
[0028]提取所述第一音频的频谱特征;
[0029]基于所述第一音频的所述频谱特征,生成所述第一音频的音频特征图;
[0030]对所述第一音频的所述音频特征图进行特征提取,获得所述第一音频的音频特征。
[0031]在一种可能的实现方式中,所述特征获取单元,用于,
[0032]基于音频定位网络对所述第一音频的所述音频特征图进行处理,获得所述第一音频的音频特征;
[0033]所述时间信息获取单元,用于基于所述音频定位网络中的音频分类层,对所述第一音频的音频特征进行处理,获得至少一个所述目标音频段落的所述时间信息;
[0034]其中,所述音频定位网络是基于样本音频以及所述样本音频的音频段落标签训练获得的网络。
[0035]在一种可能的实现方式中,所述语种获取模块,用于基于至少一个所述目标音频段落各自的语种类型,统计至少一个所述目标音频段落中,属于各个语种类型的音频段落的数量;
[0036]将所述各个语种类型中,包含所述目标音频段落的数量最多的语种类型,确定为所述第一音频的语种类型。
[0037]在一种可能的实现方式中,所述语种获取模块,包括:
[0038]累计时长获取子模块,用于基于至少一个所述目标音频段落各自的语种类型,获取与各个语种类型分别对应的所述目标音频段落的累计时长;
[0039]语种获取子模块,用于基于与各个语种类型分别对应的所述累计时长,获取所述第一音频的语种类型。
[0040]在一种可能的实现方式中,所述语种获取子模块,用于,
[0041]将所述各个语种类型中,所述累计时长最长的语种类型,确定为所述第一音频的语种类型;
[0042]或者,
[0043]将所述各个语种类型中,所述累计时长与所述第一音频的时长之间的比例最大的语种类型,确定为所述第一音频的语种类型。
[0044]在一种可能的实现方式中,所述累计时长获取子模块,包括:
[0045]位置信息获取单元,用于获取至少一个所述目标音频段落分别在所述第一音频中的位置信息;所述位置信息用于指示所述目标音频段落在所述第一音频中的时间位置;
[0046]加权处理单元,用于基于至少一个所述目标音频段落分别在所述第一音频中的位置信息,对至少一个所述目标音频段落各自的段落时长进行加权处理;
[0047]累计时长获取单元,用于基于至少一个所述目标音频段落各自的语种类型,以及至少一个所述目标音频段落各自加权处理后的段落时长,获取与各个语种类型分别对应的所述目标音频段落的累计时长。
[0048]在一种可能的实现方式中,所述位置信息获取单元,用于,
[0049]获取至少一个所述目标音频段落分别在所述第一音频中的参考时间点;所述参考时间点是音频段落的起始时间点、中间时间点以及结束时间点中的一种;
[0050]基于至少一个所述目标音频段落分别在所述第一音频中的参考时间点,获取至少一个所述目标音频段落的偏移时长,作为至少一个所述目标音频段落分别在所述第一音频中的位置信息;所述偏移时长为所述参考时间点与所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:获取第一音频;对所述第一音频进行语音定位,获得所述第一音频中的至少一个目标音频段落;所述目标音频段落是包含语音的音频段落;获取至少一个所述目标音频段落的音频特征;基于至少一个所述目标音频段落的音频特征进行语种识别,获得至少一个所述目标音频段落各自的语种类型;基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型。2.根据权利要求1所述的方法,其特征在于,所述获取至少一个所述目标音频段落的音频特征,包括:基于语种识别网络中的第一特征提取层对至少一个所述目标音频段落分别进行处理,获得至少一个所述目标音频段落的音频特征;所述基于至少一个所述目标音频段落的音频特征进行语种识别,获得至少一个所述目标音频段落各自的语种类型,包括:基于所述语种识别网络中的语种识别层分别对至少一个所述目标音频段落的音频特征进行处理,获得至少一个目标音频段落各自的语种类型;其中,所述语种识别网络是基于样本音频片段以及所述样本音频片段的语种标签训练获得的网络。3.根据权利要求1所述的方法,其特征在于,所述对所述第一音频进行语音定位,获得第一音频中的至少一个目标音频段落,包括:对所述第一音频进行语音定位,获得至少一个所述目标音频段落的时间信息;所述时间信息用以指示所述目标音频段落的起始时间以及结束时间;基于至少一个所述目标音频段落的所述时间信息,从所述第一音频中截取出至少一个所述目标音频段落。4.根据权利要求3所述的方法,其特征在于,所述对所述第一音频进行语音定位,获得至少一个所述目标音频段落的时间信息,包括:对所述第一音频进行音频特征提取,获得所述第一音频的音频特征;基于所述第一音频的音频特征对所述第一音频进行语音定位,获取至少一个所述目标音频段落的所述时间信息。5.根据权利要求4所述的方法,其特征在于,所述对所述第一音频进行音频特征提取,获得第一音频的音频特征,包括:提取所述第一音频的频谱特征;基于所述第一音频的所述频谱特征,生成所述第一音频的音频特征图;对所述第一音频的所述音频特征图进行特征提取,获得所述第一音频的音频特征。6.根据权利要求5所述的方法,其特征在于,所述对所述第一音频的所述音频特征图进行特征提取,获得所述第一音频的音频特征,包括:基于音频定位网络对所述第一音频的所述音频特征图进行处理,获得所述第一音频的音频特征;所述基于所述第一音频的音频特征对所述第一音频进行语音定位,获取至少一个所述
目标音频段落的所述时间信息,包括:基于所述音频定位网络中的音频分类层,对所述第一音频的音频特征进行处理,获得至少一个所述目标音频段落的所述时间信息;其中,所述音频定位网络是基于样本音频以及所述样本音频的音频段落标签训练获得的网络。7.根据权利要求1所述的方法,其特征在于,所述基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型,包括:基于至少一个所述目标音频段落各自的语种类型,统计至少一个所述目标音频段落中,属于各个语种类型的音频段落的数量;将所述各个语种类型中,包含所述目标音频段落的数量最多的语种类型,确定为所述第一音频的语种类型。8.根据权利要求1所述的方法,其特征在于,所述基于至少一个所述目标音频段落各自的语种类型,获取所述第一音频的语种类型,包括:基于至少一个所述目标音频段落各自...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1