音频处理方法、设备及存储介质技术

技术编号:36455321 阅读:18 留言:0更新日期:2023-01-25 22:53
本申请公开一种音频处理方法、设备及存储介质,其相关实施例可应用于云技术、智慧交通及自动驾驶等场景。方法包括:对目标音频进行特征提取处理,得到目标音频的类型判别特征;类型判别特征至少包括以下任一种:语速特征、基频波动特征以及能量占比特征,基频波动特征用于指示目标音频在持续的目标时间段内的基频的波动情况,能量占比特征用于指示目标音频处于预设频段内的能量与目标音频在所处全频段内的能量之间的差异;根据目标音频的类型判别特征与类型判别特征对应的预设特征值范围的比较结果,确定目标音频的音频类型;音频类型为歌声类型或说话声类型;可准确判别音频的音频类型。音频类型。音频类型。

【技术实现步骤摘要】
音频处理方法、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种音频处理方法、设备及存储介质。

技术介绍

[0002]在音频处理的相关场景中,由于对歌声类型的音频和说话声类型的音频有着不同的处理需求,例如,需要对说话声类型的音频进行说话声增强,以使说话声更加突出,又如,需要对歌声类型的音频进行修音,以使歌声更加优美动听;基于此,能够准确判别音频为歌声类型还是说话声类型是非常重要的,但现有的判别方案中,通常基于音频的频宽来进行判别,即由于说话声的频率一般在300至3400赫兹之间,而歌声的频率涵盖了人耳所能听到的20至20千赫兹,所以可以在音频的频率处于300至3400赫兹时,将该音频判别为说话声类型,在音频的频率处于20至20千赫兹时,将该音频判别为歌声类型,判别准确度低。

技术实现思路

[0003]本申请实施例提供一种音频处理方法、装置、设备、存储介质及计算机程序产品,可以准确判别音频的音频类型。
[0004]一方面,本申请实施例提供了一种音频处理方法,包括:
[0005]对目标音频进行特征提取处理,得到所述目标音频的类型判别特征;所述类型判别特征至少包括以下任一种:语速特征、基频波动特征以及能量占比特征,所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况,所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异;
[0006]根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果,确定所述目标音频的音频类型;所述音频类型为歌声类型或说话声类型。
[0007]一方面,本申请实施例提供了一种音频处理装置,包括:
[0008]提取单元,用于对目标音频进行特征提取处理,得到所述目标音频的类型判别特征;所述类型判别特征至少包括以下任一种:语速特征、基频波动特征以及能量占比特征,所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况,所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异;
[0009]判别单元,用于根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果,确定所述目标音频的音频类型;所述音频类型为歌声类型或说话声类型。
[0010]一方面,本申请实施例提供了一种音频处理设备,其特征在于,所述音频处理设备包括输入接口和输出接口,还包括:
[0011]处理器,适于实现一条或多条指令;以及,
[0012]计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条
指令适于由所述处理器加载并执行上述音频处理方法。
[0013]一方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述音频处理方法。
[0014]一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;音频处理设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得音频处理设备执行上述音频处理方法。
[0015]本申请实施例中,可以基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的一种或多种类型判别特征,来对目标音频的音频类型进行判别。目标音频的语速特征可以用于指示目标音频的语速快慢,当基于目标音频的语速特征来对目标音频的音频类型进行判别时,即可以根据说话和唱歌时的物理发声区别所导致的语速的快慢来进行音频类型的判别,根据语速快慢的区别可以准确判别音频的音频类型。目标音频的基频波动特征可以用于指示,目标音频在持续的目标时间段内的基频的波动情况,由于基频决定了声音的音调,当基于目标音频的基频波动特征来对目标音频的音频类型进行判别时,即可以根据说话和唱歌时的物理发声区别所导致的音调的波动情况来进行音频类型的判别,根据音调波动大小的区别可以准确判别音频的音频类型。目标音频的能量占比特征可以用于指示,目标音频处于预设频段内的能量,与目标音频在所处全频段内的能量之间的差异,当预设频段被设定为用于指示说话声所处频率的说话声频段,当基于目标音频的能量占比特征来对目标音频的音频类型进行判别时,即可以根据说话和唱歌时的物理发声区别所导致的说话声频段的能量的显著情况来进行音频类型的判别,根据频段能量的显著情况可以准确判别音频的音频类型。并且,当基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的多种类型判别特征,来对目标音频的音频类型进行判别时,可以充分利用多种类型判别特征,使得可进一步提高音频类型的判别准确性。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的一种对音频的音频类型进行判别的判别流程图;
[0018]图2是本申请实施例提供的另一种对音频的音频类型进行判别的判别流程图;
[0019]图3是本申请实施例提供的一种音频处理方法的流程示意图;
[0020]图4是本申请实施例提供的另一种音频处理方法的流程示意图;
[0021]图5a是本申请实施例提供的一种对目标音频进行语音识别处理的结果示意图;
[0022]图5b是本申请实施例提供的一种对目标音频进行语音识别处理的结果示意图;
[0023]图6是本申请实施例提供的另一种音频处理方法的流程示意图;
[0024]图7a是本申请实施例提供的一种提取得到的目标音频的基频示意图;
[0025]图7b是本申请实施例提供的另一种提取得到的目标音频的基频示意图;
[0026]图8a是本申请实施例提供的一种有效采样点对应的音符映射结果的示意图;
[0027]图8b是本申请实施例提供的另一种有效采样点对应的音符映射结果的示意图;
[0028]图9是本申请实施例提供的另一种音频处理方法的流程示意图;
[0029]图10是本申请实施例提供的一种平均功率谱的对比示意图;
[0030]图11是本申请实施例提供的另一种音频处理方法的流程示意图;
[0031]图12是本申请实施例提供的另一种对音频的音频类型进行判别的判别流程图;
[0032]图13是本申请实施例提供的音频处理装置的结构示意图;
[0033]图14是本申请实施例提供的音频处理设备的结构示意图。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:对目标音频进行特征提取处理,得到所述目标音频的类型判别特征;所述类型判别特征至少包括以下任一种:语速特征、基频波动特征以及能量占比特征,所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况,所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异;根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果,确定所述目标音频的音频类型;所述音频类型为歌声类型或说话声类型。2.如权利要求1所述的方法,其特征在于,所述根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果,确定所述目标音频的音频类型,包括:若所述目标音频的类型判别特征为多种,且在所述目标音频的多种类型判别特征中,存在至少一种类型判别特征符合所述至少一种类型判别特征对应的预设特征值范围,则将所述目标音频的音频类型判别为歌声类型;若所述目标音频的类型判别特征为多种,且在所述目标音频的多种类型判别特征中,每种类型判别特征均不符合所述每种类型判别特征对应的预设特征值范围,则将所述目标音频的音频类型判别为说话声类型。3.如权利要求1所述的方法,其特征在于,对目标音频进行特征提取处理,得到所述目标音频的语速特征,包括:对所述目标音频进行语音识别处理,得到所述目标音频对应的文字内容以及各个文字内容在所述目标音频中的发声开始时间和发声结束时间;基于所述各个文字内容的发声开始时间和发声结束时间,确定所述各个文字内容的平均发声时长;基于所述平均发声时长,确定所述目标音频的语速特征;所述目标音频的语速特征与所述平均发声时长呈负相关关系。4.如权利要求1所述的方法,其特征在于,对目标音频进行特征提取处理,得到所述目标音频的基频波动特征,包括:提取所述目标音频的基频;在所述目标时间段内,对所述目标音频的基频进行采样处理,得到各个采样点对应的基频;基于所述各个采样点对应的基频之间的差异,确定所述目标音频的基频波动特征。5.如权利要求4所述的方法,其特征在于,所述基于所述各个采样点对应的基频之间的差异,确定所述目标音频的基频波动特征,包括:对所述各个采样点对应的基频进行标准差计算处理,得到目标标准差;将所述目标标准差确定为所述目标音频的基频波动特征。6.如权利要求5所述的方法,其特征在于,所述对所述各个采样点对应的基频进行标准差计算处理,得到目标标准差,包括:对所述各个采样点对应的基频进行音符映射处理,得到所述各个采样点对应的音符映射结果...

【专利技术属性】
技术研发人员:张超鹏陈梦赵伟峰
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1