语音降噪模型的训练方法、语音降噪方法和相关设备技术

技术编号:32349729 阅读:14 留言:0更新日期:2022-02-20 02:14
本申请提供了一种语音降噪模型的训练方法、语音降噪方法和相关设备,首先获取带噪语音和干净语音,然后将带噪语音和干净语音作为训练样本输入神经网络进行模型训练。带噪语音经过神经网络处理为第一降噪语音,基于第一降噪语音和干净语音计算得到第一损失值,基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域计算得到第二损失值;通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化,迭代循环至模型收敛,得到语音降噪模型。本申请通过使用不同类型、不同权值的第一损失值和第二损失值综合对神经网络的参数进行优化,从而有效提升语音降噪模型的降噪效果。果。果。

【技术实现步骤摘要】
语音降噪模型的训练方法、语音降噪方法和相关设备


[0001]本申请涉及语音降噪
,特别涉及一种语音降噪模型的训练方法、语音降噪方法和相关设备。

技术介绍

[0002]语音降噪技术被广泛应用于耳机、会议室终端、智能终端等场景,现有语音降噪技术通常使用cnn+rnn的网络结构训练得到的降噪模型对带噪语音进行降噪,不仅对应用硬件设备的资源需求较高,且实际降噪效果不如人意。

技术实现思路

[0003]本申请的主要目的为提供一种语音降噪模型的训练方法、语音降噪方法和相关设备,旨在解决现有的语音降噪方法实际降噪效果较差的弊端。
[0004]为实现上述目的,本申请提供了一种语音降噪模型的训练方法,包括:获取带噪语音和干净语音;将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练;模型训练过程中,所述带噪语音经过所述神经网络处理为第一降噪语音,并基于所述第一降噪语音和所述干净语音通过si

snr计算得到第一损失值,基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值;通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化,迭代循环至模型收敛,得到所述语音降噪模型。
[0005]本申请还提供了一种语音降噪方法,包括:采集用户语音;将所述用户语音输入语音降噪模型进行处理,得到第二降噪语音,其中,所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。
[0006]本申请还提供了一种语音降噪模型的训练装置,包括:获取模块,用于获取带噪语音和干净语音;输入模块,用于将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练;训练模块,用于模型训练过程中,所述带噪语音经过所述神经网络处理为第一降噪语音,并基于所述第一降噪语音和所述干净语音通过si

snr计算得到第一损失值,基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值;通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化,迭代循环至模型收敛,得到所述语音降噪模型。
[0007]本申请还提供了一种语音降噪装置,包括:
采集模块,用于采集用户语音;降噪模块,用于将所述用户语音输入语音降噪模型进行处理,得到第二降噪语音,其中,所述语音降噪模型为如上所述的语音降噪模型的训练方法训练得到的模型。
[0008]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0009]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
[0010]本申请中提供的一种语音降噪模型的训练方法、语音降噪方法和相关设备,模型训练时,首先获取带噪语音和干净语音,然后将带噪语音和干净语音作为训练样本输入神经网络进行模型训练。在模型训练过程中,带噪语音经过神经网络处理为第一降噪语音,并基于第一降噪语音和干净语音通过si

snr计算得到第一损失值,基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值;通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化,迭代循环至模型收敛,得到语音降噪模型。应用时,语音降噪模型部署在硬件设备上,采集应用场景的用户语音,并将用户语音输入语音降噪模型经模型处理后即可得到用户语音降噪后的第二降噪语音。本申请在进行模型训练时,通过使用不同类型、不同权值的第一损失值和第二损失值综合对神经网络的参数进行优化,从而有效提升训练得到的语音降噪模型的降噪效果。
附图说明
[0011]图1是本申请一实施例中语音降噪模型的训练方法的步骤示意图;图2是本申请一实施例中语音降噪方法的步骤示意图图3是本申请一实施例中语音降噪模型的训练装置的整体结构框图;图4是本申请一实施例中语音降噪装置的整体结构框图图5是本申请一实施例的计算机设备的结构示意框图。
[0012]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0013]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0014]参照图1,本申请一实施例中提供了一种语音降噪模型的训练方法,包括:S1:获取带噪语音和干净语音;S2:将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练;S3:模型训练过程中,所述带噪语音经过所述神经网络处理为第一降噪语音,并基于所述第一降噪语音和所述干净语音通过si

snr计算得到第一损失值,基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值;通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化,迭代循环至模型收敛,得到所述语
音降噪模型。
[0015]本实施例中,训练系统获取预先录制或模拟的带噪语音和干净语音(干净语音为不带任何噪音信息的语音),然后将带噪语音和干净语音作为训练样本输入神经网络中进行模型训练。在模型训练过程中,首先对带噪语音进行短时傅里叶变换和压缩,得到若干帧带噪音频数据各自对应的音频张量。在基于语音时序的相关性,将当前帧带噪音频张量与相邻的预设数量的历史帧带噪音频张量进行拼接,当前帧带噪音频张量通过拼接后的带噪音频张量的权值学习对应维度的权值,并在拼接后的带噪音频张量对应的维度上进行求和或求均,得到当前帧最终带噪音频张量作为下一步的输入。训练系统将当前帧最终带噪音频张量映射到预设频率维度,学习得到对应的复掩膜(即mask)。训练系统利用该复掩膜对带噪语音进行增强处理,得到第一降噪实部频域和第一降噪虚部频域,进而基于第一降噪实部频域和第一降噪虚部频域通过短时傅里叶逆变换得到第一降噪语音。训练系统将获取的第一降噪语音与干净语音通过si

snr计算得到第一损失值,并基于降噪语音的第一降噪实部频域、第一降噪虚部频域与干净语音的干净实部频域、干净虚部频域(干净实部频域、干净虚部频域由干净语音通过短时傅里叶变换得到)对应通过均方损失函数计算得到第二损失值。训练系统通过第一损失值和第二损失值加权计算后的损失值总和对神经网络的参数进行优化,迭代循环至模型收敛,得到最终的语音降噪模型。其中,第一损失值和第二损失值各自对应的权重可以为系统动态设置,也可以由开发人员进行手动设置(比如设置为模型训练一定数量的批次后,由开发人员实时根据训练结果手动设置第一损失值和第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪模型的训练方法,其特征在于,包括:获取带噪语音和干净语音;将所述带噪语音和所述干净语音作为训练样本输入神经网络进行模型训练;模型训练过程中,所述带噪语音经过所述神经网络处理为第一降噪语音,并基于所述第一降噪语音和所述干净语音通过si

snr计算得到第一损失值,基于所述降噪语音的第一降噪实部频域、第一降噪虚部频域与所述干净语音的干净实部频域、干净虚部频域对应通过均方损失函数计算得到第二损失值;通过所述第一损失值和所述第二损失值加权计算后的损失值总和对所述神经网络的参数进行优化,迭代循环至模型收敛,得到所述语音降噪模型。2.一种语音降噪方法,其特征在于,包括:采集用户语音;将所述用户语音输入语音降噪模型进行处理,得到第二降噪语音,其中,所述语音降噪模型为权利要求1所述的语音降噪模型的训练方法训练得到的模型。3.根据权利要求2所述的语音降噪方法,其特征在于,所述将所述用户语音输入语音降噪模型进行处理,得到第二降噪语音的步骤,包括:对所述用户语音进行短时傅里叶变换和压缩,得到若干帧音频数据各自对应的音频张量;基于语音时序的相关性,使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习,得到当前帧最终音频张量;将所述当前帧最终音频张量映射到预设频率维度,学习得到对应的复掩膜;利用所述复掩膜对所述用户语音进行增强处理,得到第二降噪实部频域和第二降噪虚部频域;根据所述第二降噪实部频域和所述第二降噪虚部频域进行短时傅里叶逆变换,得到所述第二降噪语音。4.根据权利要求3所述的语音降噪方法,其特征在于,所述对所述用户语音进行短时傅里叶变换和压缩,得到若干帧音频数据各自对应的音频张量的步骤,包括:按照预设采样率对所述用户语音进行短时傅里叶变换,并按照预设输入形式设置输入特征,得到所述用户语音包含的各帧音频数据分别对应的初始音频张量;通过二维卷积网络函数对各所述初始音频张量进行压缩,得到一次音频张量;使用reshape方法合并各所述一次音频张量的维度,得到各所述一次音频张量分别对应的二次音频张量;将各所述二次音频张量分别压缩至预设维度,得到各所述音频张量。5.根据权利要求3所述的语音降噪方法,其特征在于,所述基于语音时序的相关性,使用预设数量的历史帧音频张量对当前帧初始音频张量进行加权学习,得到当前帧最终音频张量的步骤,包括:将预设数量具有连续时序性的历史帧音频张量与当前帧初始音频张量进行拼接,得到拼接张量;所述当前帧初始音频张量通过所述拼接张量的权值学习对应维度的权值,并在所述拼接张量对应的维度上进行求和或求均,得到所述当前帧最终音频张量。

【专利技术属性】
技术研发人员:李杰王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1