一种语音增强方法、装置、设备以及存储介质制造方法及图纸

技术编号:32828703 阅读:10 留言:0更新日期:2022-03-26 20:35
本公开提供了一种语音增强方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及深度学习技术和语音技术领域,可用于音频通讯场景。具体实现方案为:对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音;根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率;根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。能够提高语音增强效果,为语音增强提供了新的解决思路。新的解决思路。新的解决思路。

【技术实现步骤摘要】
一种语音增强方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习技术和语音
,可用于音频通讯场景。

技术介绍

[0002]语音增强(SE:Speech Enhancement)技术是音频通讯领域中的一个经典技术,主要是指当纯净语音被真实环境中的噪声和/或回声干扰后,从噪声背景中提取纯净语音的抗干扰技术。
[0003]现有的语音增强技术对混合语音中的噪声和/或回声的抑制能力不足,导致无法从混合语音中提取到高质量的纯净语音,亟需改进。

技术实现思路

[0004]本公开提供了一种语音增强方法、装置、设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音增强方法,包括:
[0006]对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音;
[0007]根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率;
[0008]根据预测概率、至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到目标混合语音中的目标纯净语音。
[0009]根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
[0010]至少一个处理器;以及
[0011]与至少一个处理器通信连接的存储器;其中,
[0012]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的语音增强方法。
[0013]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的语音增强方法。
[0014]根据本公开的技术,能够提高语音增强效果,为语音增强提供了新的解决思路。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0017]图1是根据本公开实施例提供的一种语音增强方法的流程图;
[0018]图2是根据本公开实施例提供的一种语音增强方法的流程图;
[0019]图3是根据本公开实施例提供的语音增强模型的结构示意图;
[0020]图4是根据本公开实施例提供的一种语音增强方法的流程图;
[0021]图5A是根据本公开实施例提供的一种语音增强方法的流程图;
[0022]图5B是根据本公开实施例提供的一种语音增强方法的原理示意图;
[0023]图6A是根据本公开实施例提供的一种语音增强方法的流程图;
[0024]图6B是本公开实施例提供的另一种语音增强方法的原理示意图;
[0025]图6C是包含敲击噪声的目标混合语音的波形图;
[0026]图6D是对包含敲击噪声的目标混合语音进行语音增强后的目标纯净语音的波形图;
[0027]图6E是包含回声的目标混合语音的波形图;
[0028]图6F是对包含回声的目标混合语音进行语音增强后的目标纯净语音的波形图;
[0029]图7是根据本公开实施例提供的一种语音增强装置的结构示意图;
[0030]图8是用来实现本公开实施例的语音增强方法的电子设备的框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032]图1是根据本公开实施例提供的语音增强方法的流程图。本公开实施例适用于对混有噪声和/或回声的语音进行语音增强的情况。该方法可以由语音增强装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,本实施例提供的语音增强方法可以包括:
[0033]S101,对至少两路目标语音进行子带分解处理,得到至少两路目标语音的幅度谱和相位谱;其中,至少两路目标语音包括:目标混合语音和目标干扰语音。
[0034]其中,目标语音可以是执行语音增强方法所需要输入的语音。其可以包括至少两路,具体的,至少包括目标混合语音和目标干扰语音。所谓目标混合语音可以是在纯净语音中混合有噪声和/或回声后的语音。该目标混合语音即为需要执行语音增强处理(即需要去除其中的噪声和/或回声)的语音。
[0035]示例性的,目标混合语音的语音信号为:
[0036]y(t)=s(t)+n(t)+e(t);
[0037]其中,y(t)为目标混合语音;s(t)为纯净语音;n(t)为噪声;e(t)为回声。
[0038]可选的,在用于对部署有多路定向麦克风的音频通讯设备进行语音增强的情况下,由于多路定向麦克风都会进行语音的采集,此时本实施例可以对各路定向麦克风采集的语音进行能量强弱分析,将能量最强的一路定向麦克风采集的语音作为需要进行语音增强的目标混合语音。
[0039]目标干扰语音可以是指混入目标混合语音中的噪声和/或回声所关联的信号。具体的,可以是导致回声产生的远端语音;和/或噪声声源关联的标准噪声信号等。例如,在有敲击声的语音通信场景中,语音通讯设备的麦克风采集的目标混合语音中包括:本地用户的输入语音(即纯净语音)、环境中的敲击声(即噪声),以及与本地用户进行通话的远端用
户的输出语音在环境中的回声。相应的,此时的目标干扰语音可以是为该场景的敲击物所设置的标准噪声语音,和/或远端用户的输出语音。
[0040]需要说明的是,本实例的目的是从目标混合语音中滤除其中包含的噪声和/或回声,得到无干扰的纯净语音。即通过语音增强处理将上述语音信号y(t)中尽可能的恢复出纯净语音s(t)。
[0041]可选的,本实施例的目标语音信号为时域信号,时域信号是以时间轴为坐标表示动态信号,为了减少信号增强过程的计算负担,本实施例可以基于子带分解技术,分别对每路目标语音进行处理,以将每路目标语音从时域转换成特征域(如频域)信号(即特征域下的虚数信号),再计算该特征域信号在该特征域的不同点下的幅度值和相位值,从而得到该特征域信号在特征域下的幅度谱和相位谱。即每路目标语音的幅度谱和相位谱。
[0042]具体的,本实施例可以是调用子带分解算法依次处理每路目标语音,从而得到该目标语音的幅度谱和相位谱。还可以通过预先训练的子带分解模型或其他方式实现,对此不进行限定
[0043]S102,根据至少两路目标语音的幅度谱,确定目标混合语音在特征域内存在目标纯净语音的预测概率。
[0044]其中,目标纯净语音可以是将目标混合语音中混入的噪声和/或回声去除后得到的语音。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,包括:对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱;其中,所述至少两路目标语音包括:目标混合语音和目标干扰语音;根据所述至少两路目标语音的幅度谱,确定所述目标混合语音在特征域内存在目标纯净语音的预测概率;根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音。2.根据权利要求1所述的方法,其中,所述对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱,包括:对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的虚数信号;根据所述至少两路目标语音的虚数信号,确定所述至少两路目标语音的幅度谱和相位谱。3.根据权利要求1或2所述的方法,还包括:基于对数处理和/或归一化处理,更新所述至少两路目标语音的幅度谱。4.根据权利要求1所述的方法,其中,所述根据所述至少两路目标语音的幅度谱,确定所述目标混合语音在特征域内存在目标纯净语音的预测概率,包括:将所述至少两路目标语音的幅度谱输入到语音增强模型中,得到所述目标混合语音在特征域内存在目标纯净语音的预测概率;其中,所述语音增强模型包括:卷积神经网络、时间卷积网络、全连接网络和激活网络。5.根据权利要求4所述的方法,其中,所述语音增强模型是基于训练样本通过有监督训练得到,所述训练样本包括:基于麦克风指向性生成的样本纯净语音、样本干扰语音,以及对所述样本纯净语音混入不同类型噪声和/或回声的样本混合语音。6.根据权利要求1所述的方法,其中,所述根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音,包括:根据所述预测概率和所述目标混合语音的幅度谱,确定目标纯净语音的幅度谱;对所述目标纯净语音的幅度谱和所述目标混合语音的相位谱进行子带合成处理,得到目标纯净语音。7.根据权利要求1所述的方法,其中,所述至少两路目标语音还包括:初步对所述目标混合语音进行回声和/或噪声消除后的预处理语音;根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音,包括:根据所述预测概率、所述预处理语音的幅度谱和相位谱,进行子带合成处理,得到所述目标混合语音中的目标纯净语音。8.一种语音增强装置,包括:子带分解模块,用于对至少两路目标语音进行子带分解处理,得到所述至少两路目标语音的幅度谱和相位谱;其中,所述至少两路目标语音包括:目标混合语音和目标干扰语音;概率预测模块,用于根据所述...

【专利技术属性】
技术研发人员:李光正张国昌于利标魏建强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1