语音增强方法、装置、电子设备与存储介质制造方法及图纸

技术编号:33621178 阅读:45 留言:0更新日期:2022-06-02 00:44
本发明专利技术提供一种语音增强方法、装置、电子设备与存储介质,其中方法包括:确定待处理语音的低频数据和高频数据;基于语音增强模型,分别对低频数据和高频数据进行语音增强,得到待处理语音对应的增强语音,增强语音包括低频成分和高频成分,低频成分是对低频数据进行语音增强得到的,高频成分是对高频数据进行语音增强得到的;语音增强模型中,对低频数据进行语音增强的处理精度高于对高频数据进行语音增强的处理精度;语音增强模型基于样本语音的样本低频数据和样本高频数据,以及样本语音对应的纯净语音训练得到。本发明专利技术提供的方法、装置、电子设备与存储介质,不仅能够获得良好的语音增强效果,同时也可以降低资源功耗,提升设备续航。设备续航。设备续航。

【技术实现步骤摘要】
语音增强方法、装置、电子设备与存储介质


[0001]本专利技术涉及智能语音
,尤其涉及一种语音增强方法、装置、电子设备与存储介质。

技术介绍

[0002]伴随着智能移动设备的普及,越来越多的新技术被应用到智能移动设备中,给广大的消费者提供了极好的用户体验,例如:人机交互、语音通话、语音视频等。以语音通话场景为例,如果周围环境噪声或者通话回声较大,这会很大程度上影响用户的体验效果。
[0003]目前,已有少部分的智能移动设备厂商利用传统信号处理方法或神经网络方法实现了通话语音的语音增强功能。然而,由于使用智能移动设备进行通话时,存在的应用场景往往比较复杂,采用传统信号处理的方法无法保证在多个应用场景中均能达到令人满意的用户体验效果;而在使用神经网络进行语音增强时,考虑到节省功耗的问题,厂商会对神经网络模型进行量化精简,以便降低算法的运行开销,但同时也会带来一定程度上的效果损失。

技术实现思路

[0004]本专利技术提供一种语音增强方法、装置、电子设备与存储介质,用以解决现有技术中语音增强效果与功耗无法平衡的缺陷,实现获得良好的语音增强效果的同时,降低资源功耗。
[0005]本专利技术提供一种语音增强方法,包括:
[0006]确定待处理语音的低频数据和高频数据;
[0007]基于语音增强模型,分别对所述低频数据和高频数据进行语音增强,得到所述待处理语音对应的增强语音,所述增强语音包括低频成分和高频成分,所述低频成分是对所述低频数据进行语音增强得到的,所述高频成分是对所述高频数据进行语音增强得到的;
[0008]所述语音增强模型中,对所述低频数据进行语音增强的处理精度高于对所述高频数据进行语音增强的处理精度;
[0009]所述语音增强模型基于样本语音的样本低频数据和样本高频数据,以及所述样本语音对应的纯净语音训练得到。
[0010]根据本专利技术提供的一种语音增强方法,所述基于语音增强模型,分别对所述低频数据和高频数据进行语音增强,得到所述待处理语音对应的增强语音,包括:
[0011]基于所述语音增强模型中的低频增强网络,对所述低频数据进行语音增强,得到低频处理特征;
[0012]基于所述语音增强模型中的高频增强网络,对所述高频数据进行语音增强,得到高频处理特征;
[0013]基于所述语音增强模型中的输出网络,应用所述低频处理特征和所述高频处理特征,确定所述增强语音。
[0014]根据本专利技术提供的一种语音增强方法,所述低频增强网络包括至少一个低频增强模块,所述高频增强网络包括至少一个高频增强模块。
[0015]根据本专利技术提供的一种语音增强方法,所述低频增强模块的结构与所述高频增强模块的结构相同,所述低频增强网络包括所述低频增强模块的数量大于所述高频增强网络包括所述高频增强模块的数量。
[0016]根据本专利技术提供的一种语音增强方法,所述基于所述语音增强模型中的输出网络,应用所述低频处理特征和所述高频处理特征,确定所述增强语音,包括:
[0017]基于所述输出网络中的融合子网络,应用所述低频处理特征和所述高频处理特征,确定语音保留系数;
[0018]基于所述输出网络中的运算子网络,应用所述语音保留系数和所述待处理语音,确定所述增强语音。
[0019]根据本专利技术提供的一种语音增强方法,所述确定待处理语音的低频数据和高频数据,包括:
[0020]确定所述待处理语音的低频数据和高频数据,以及所述待处理语音对应的噪声标志位和/或回声标志位;
[0021]所述基于语音增强模型,分别对所述低频数据和高频数据进行语音增强,得到所述待处理语音对应的增强语音,包括:
[0022]基于所述语音增强模型,分别对所述低频数据和所述高频数据进行指定类型的语音增强,得到所述增强语音;
[0023]所述指定类型是基于所述噪声标志位和/或所述回声标志位确定的,所述指定类型的语音增强包括语音降噪和/或回声消除。
[0024]根据本专利技术提供的一种语音增强方法,所述待处理语音对应的噪声标志位和/或回声标志位是基于如下步骤确定的:
[0025]基于用户的语音增强输入,和/或,所述待处理语音的音质检测结果,确定所述噪声标志位和/或所述回声标志位。
[0026]根据本专利技术提供的一种语音增强方法,所述语音增强模型具体基于样本语音的样本低频信息和样本高频信息,所述样本语音对应的噪声标志位和/或回声标志位,以及所述样本语音对应的纯净语音训练得到,所述样本语音包括仅含噪声的语音、仅含回声的语音以及同时包括噪声和回声的语音。
[0027]本专利技术还提供一种语音增强装置,包括:
[0028]数据确定单元,用于确定待处理语音的低频数据和高频数据;
[0029]语音增强单元,用于基于语音增强模型,分别对所述低频数据和高频数据进行语音增强,得到所述待处理语音对应的增强语音,所述增强语音包括低频成分和高频成分,所述低频成分是对所述低频数据进行语音增强得到的,所述高频成分是对所述高频数据进行语音增强得到的;
[0030]所述语音增强模型中,对所述低频数据进行语音增强的处理精度高于对所述高频数据进行语音增强的处理精度;
[0031]所述语音增强模型基于样本语音的样本低频数据和样本高频数据,以及所述样本语音对应的纯净语音训练得到。
[0032]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音增强方法。
[0033]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音增强方法。
[0034]本专利技术提供的语音增强方法、装置、电子设备与存储介质,应用语音增强模型分别对待处理语音的低频数据和高频数据进行语音增强,对低频数据执行处理精度较高的神经网络操作,对高频数据执行处理精度较高的神经网络操作,从而不仅能够获得良好的语音增强效果,保证用户的核心体验效果,同时也可以减轻运算量,降低资源功耗,提升设备续航。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的语音增强方法的流程示意图之一;
[0037]图2是本专利技术提供的语音增强方法的流程示意图之二;
[0038]图3是本专利技术提供的语音增强方法的流程示意图之三;
[0039]图4是本专利技术提供的语音增强方法的流程示意图之四;
[0040]图5是本专利技术提供的语音增强模型的网络架构示例图;
[0041]图6是本专利技术提供的智能移动设备的结构示意图;
[0042]图7是本专利技术提供的语音增本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:确定待处理语音的低频数据和高频数据;基于语音增强模型,分别对所述低频数据和高频数据进行语音增强,得到所述待处理语音对应的增强语音,所述增强语音包括低频成分和高频成分,所述低频成分是对所述低频数据进行语音增强得到的,所述高频成分是对所述高频数据进行语音增强得到的;所述语音增强模型中,对所述低频数据进行语音增强的处理精度高于对所述高频数据进行语音增强的处理精度;所述语音增强模型基于样本语音的样本低频数据和样本高频数据,以及所述样本语音对应的纯净语音训练得到。2.根据权利要求1所述的语音增强方法,其特征在于,所述基于语音增强模型,分别对所述低频数据和高频数据进行语音增强,得到所述待处理语音对应的增强语音,包括:基于所述语音增强模型中的低频增强网络,对所述低频数据进行语音增强,得到低频处理特征;基于所述语音增强模型中的高频增强网络,对所述高频数据进行语音增强,得到高频处理特征;基于所述语音增强模型中的输出网络,应用所述低频处理特征和所述高频处理特征,确定所述增强语音。3.根据权利要求2所述的语音增强方法,其特征在于,所述低频增强网络包括至少一个低频增强模块,所述高频增强网络包括至少一个高频增强模块。4.根据权利要求3所述的语音增强方法,其特征在于,所述低频增强模块的结构与所述高频增强模块的结构相同,所述低频增强网络包括所述低频增强模块的数量大于所述高频增强网络包括所述高频增强模块的数量。5.根据权利要求2所述的语音增强方法,其特征在于,所述基于所述语音增强模型中的输出网络,应用所述低频处理特征和所述高频处理特征,确定所述增强语音,包括:基于所述输出网络中的融合子网络,应用所述低频处理特征和所述高频处理特征,确定语音保留系数;基于所述输出网络中的运算子网络,应用所述语音保留系数和所述待处理语音,确定所述增强语音。6.根据权利要求1所述的语音增强方法,其特征在于,所述确定待处理语音的低频数据和高频数据,包括:确定所述待处理语音的低频数据和高频数据,以及所述待处理...

【专利技术属性】
技术研发人员:姜海涛马峰管青松李明子
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1