语音增强方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:35023706 阅读:22 留言:0更新日期:2022-09-24 22:54
本申请公开了一种语音增强方法、装置、设备、存储介质及程序产品,涉及语音技术处理领域。该方法包括:沿频域维度对待进行语音增强的目标音频进行频带切分,得到至少两个子频带;获取至少两个子频带分别对应的子带能量数据;沿时域维度对至少两个子频带分别对应的子带能量数据进行分析,得到至少两个子频带分别对应的子带能量分布数据;当指定子频带对应的子带能量分布数据符合调整条件的情况下,对指定子频带的子带能量数据进行调整,得到目标增强音频。通过以上方式,能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整,在充分考虑目标音频特性的同时提高了语音增强的质量。本申请可应用于云技术、人工智能、智慧交通等各种场景。慧交通等各种场景。慧交通等各种场景。

【技术实现步骤摘要】
语音增强方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及语音技术处理领域,特别涉及一种语音增强方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]语音在传输过程中不可避免地会受到周围环境以及通信设备内部噪声的干扰,因此需要通过语音增强技术从带噪音的语音信号中提取尽可能纯净的原始语音,语音增强技术在语音处理、语音识别、语音检测等领域中发挥着重要作用。
[0003]相关技术中,通常采用噪音抑制、回声消除、音量调节等方法对语音信号进行处理,例如:通过深度学习方法对语音信号中的噪声成分进行抑制,输出得到信噪比增强的语音信号。
[0004]通过上述方法得到的语音信号虽然在一定程度上减轻了噪音的干扰,但当接受者在长时间接收语音信号时,可能会对语音信号产生听觉疲劳,影响语音信号的后续处理过程。

技术实现思路

[0005]本申请实施例提供了一种语音增强方法、装置、设备、存储介质及程序产品,能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整,在充分考虑目标音频特性的同时,提高了语音增强的质量。所述技术方案如下。
[0006]一方面,提供了一种语音增强方法,所述方法包括:
[0007]获取目标音频,所述目标音频为待进行语音增强的音频数据;
[0008]沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;
[0009]获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况;
[0010]沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;
[0011]在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。
[0012]另一方面,提供了一种语音增强装置,所述装置包括:
[0013]音频获取模块,用于获取目标音频,所述目标音频为待进行语音增强的音频数据;
[0014]频带切分模块,用于沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;
[0015]数据获取模块,用于获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情
况;
[0016]数据分析模块,用于沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;
[0017]能量调整模块,用于在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。
[0018]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述语音增强方法。
[0019]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的语音增强方法。
[0020]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语音增强方法。
[0021]本申请实施例提供的技术方案带来的有益效果至少包括:
[0022]沿频域维度对待进行语音增强的目标音频进行频带切分,得到至少两个子频带,获取不同子频带分别对应的子带能量数据以及子带能量分布数据,当存在指定子频带对应的子带能量分布数据符合调整条件时,基于指定子频带对应的子带能量分布数据确定调整参数,并利用调整参数对指定子频带的子带能量数据进行调整,从而有效避免对目标音频的全部语音信号进行无目的地调整,通过判断子频带的子带能量分布数据是否符合调整条件,有选择地对不符合调整条件的指定子频带的子带能量数据进行调整,进而利用由指定子频带对应的子带能量分布数据确定的调整参数,对指定子频带的子带能量数据进行调整,并基于调整后的子带能量数据,得到有选择性增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请一个示例性实施例提供的实施环境示意图;
[0025]图2是本申请一个示例性实施例提供的语音增强方法的流程图;
[0026]图3是本申请一个示例性实施例提供的频带切分的示意图;
[0027]图4是本申请另一个示例性实施例提供的语音增强方法的流程图;
[0028]图5是本申请一个示例性实施例提供的目标音频的示意图;
[0029]图6是本申请再一个示例性实施例提供的语音增强方法的流程图;
[0030]图7是本申请一个示例性实施例提供的子带能量数据调整的示意图;
[0031]图8是本申请一个示例性实施例提供的语音增强方法的处理流程图;
[0032]图9是本申请又一个示例性实施例提供的语音增强方法的流程图;
[0033]图10是本申请一个示例性实施例提供的语音增强装置的结构框图;
[0034]图11是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
[0035]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0036]相关技术中,通常采用噪音抑制、回声消除、音量调节等方法对语音信号进行处理,例如:通过深度学习方法对语音信号中的噪声成分进行抑制,输出得到信噪比增强的语音信号。通过上述方法得到的语音信号虽然在一定程度上减轻了噪音的干扰,但当接受者在长时间接收语音信号时,可能会对语音信号产生听觉疲劳,影响语音信号的后续处理过程。
[0037]本申请实施例中,提供了一种语音增强方法,能够有选择地对目标音频中不符合调整条件的子带能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,所述方法包括:获取目标音频,所述目标音频为待进行语音增强的音频数据;沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况;沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。2.根据权利要求1所述的方法,其特征在于,所述沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,包括:获取第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i

1帧音频帧中至少两个子频带分别对应的子带能量分布数据,其中,i为大于1的正整数;基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i

1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据。3.根据权利要求2所述的方法,其特征在于,所述子带能量分布数据包括子带能量长时分布数据,所述子带能量长时分布数据用于指示相邻两帧音频帧的子带能量数据的变化情况;所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i

1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据,包括:以第一预设权重对所述第i帧音频帧中至少两个子频带分别对应的子带能量数据以及所述第i

1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据进行加权融合,确定所述第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。4.根据权利要求3所述的方法,其特征在于,所述在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,包括:响应于所述至少两个子频带中存在指定子频带对应的子带能量长时分布数据达到预设听觉阈值,确定所述调整参数,所述预设听觉阈值用于指示所述调整条件。5.根据权利要求2所述的方法,其特征在于,所述子带能量分布数据包括子带能量高位分布数据,所述子带能量高位分布数据用于指示第i帧音频帧的子带能量数据与第i

1帧音频帧的子带能量高位分布数据的数据比较情况;所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i

1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据,包括:
基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i

1帧音频帧中至少两个子频带分别对应的子带能量高位分布数据以及第二预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量高位分布数据。6.根据权利要求2所述的方法,其特征在于,所述子带能量分布数据包括子带能量低位分布数据,所述子带能量低位分布数据用于指示第i帧音频帧的子带能量数据与第i

1帧音频帧的子带能量低位分布数据的数据比较情况;所述基于所述第i帧音频帧中至少两个子频带...

【专利技术属性】
技术研发人员:梁俊斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1