语音处理模型的训练方法、语音数据的降噪方法及装置制造方法及图纸

技术编号:33402706 阅读:17 留言:0更新日期:2022-05-11 23:24
本申请公开了语音处理模型的训练方法、语音数据的降噪方法及装置。方法包括:获取语音数据样本,语音样本数据中包括多帧经过噪声混合后得到的语音数据;获取语音数据样本对应的标签信息,其中,标签信息用于标记语音数据样本中的纯净语音特征,噪声语音特征以及语音活性特征;确定预设神经网络模型;利用语音数据样本和标签信息对预设神经网络模型进行训练,以使预设神经网络模型学习纯净语音特征与噪声语音特征,以及噪声语音特征与语音活性特征之间的对应关系,得到语音处理模型。本申请在模型训练过程中,使用无噪声的语音数据与噪声混合后的样本,同时结合样本中的语音活性特征进行训练,能够在同等模型计算量条件下,降噪性能更好。性能更好。性能更好。

【技术实现步骤摘要】
语音处理模型的训练方法、语音数据的降噪方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种语音处理模型的训练方法、语音数据的降噪方法及装置。

技术介绍

[0002]基于深度学习的降噪方法,输入通常为带噪语音及其变换特征,输出为干净语音及其变换特征,要想得到较好的降噪性能,通常需要使用结构复杂的网络模型,同时在该网络模型的使用过程中还会产生着大量的计算、耗费大量存储资源。降低了网络模型的灵活性,不利于低资源端侧使用。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种语音处理模型的训练方法、语音数据的降噪方法及装置。
[0004]根据本申请实施例的一个方面,提供了一种语音处理模型的训练方法,包括:
[0005]获取语音数据样本,其中,所述语音样本数据中包括多帧经过噪声混合后得到的语音数据;
[0006]获取所述语音数据样本对应的标签信息,其中,所述标签信息用于标记所述语音数据样本中的纯净语音特征,噪声语音特征以及语音活性特征;
[0007]确定预设神经网络模型;
[0008]利用所述语音数据样本和所述标签信息对所述预设神经网络模型进行训练,以使所述预设神经网络模型学习所述纯净语音特征与所述噪声语音特征,以及所述噪声语音特征与所述语音活性特征之间的对应关系,得到语音处理模型。
[0009]进一步的,所述获取语音数据样本,包括:
[0010]获取初始语音数据,其中,所述初始语音数据为携带纯净语音特征以及语音活性特征的语音数据;
[0011]确定多种类型的初始噪声特征以及预设信噪比;
[0012]按照所述预设信噪比对所述初始语音数据和所述初始噪声特征进行混合,得到所述语音数据样本。
[0013]进一步的,所述预设神经网络模型中包括:卷积神经网络、第一循环神经网络、第二循环神经网络、第一深度神经网络以及第二深度神经网络;
[0014]所述卷积神经网络分别连接所述第一循环神经网络和所述第二循环神经网络,所述第一循环神经网络与所述第一深度神经网络连接,所述第二循环神经网络与所述第二深度神经网络连接,其中,所述卷积神经网络通过连接单元与所述第一循环神经网络连接,所述第二循环神经网络还通过所述连接单元与所述第一循环神经网络连接。
[0015]进一步的,利用所述语音数据样本和所述标签信息对所述预设神经网络模型进行训练,以使所述预设神经网络模型学习所述纯净语音特征与所述噪声语音特征,以及所述
噪声语音特征与所述语音活性特征之间的对应关系,得到语音处理模型,包括:
[0016]将所述语音数据样本输入所述预设神经网络模型,以使所述预设神经网络模型中的卷积神经网络提取所述语音数据样本的第一特征,将所述第一特征分别输入至所述连接单元和所述第二循环神经网络,所述第二循环神经网络检测所述第一特征中的第一语音活性特征以及第一噪声语音特征,并提取所述第一语音活性特征,将所述第一语音活性特征分别输入所述连接单元和所述第二深度神经网络,所述连接单元对所述第一特征和所述第一语音活性特征进行拼接得到第二特征,将所述第二特征输入所述第一循环神经网络,并由所述第一循环神经网络检测所述第二特征中的第二语音活性特征和第二噪声语音特征,提取所述第二语音活性特征,将所述第二语音活性特征输入所述第一深度神经网络进行特征叠加得到第三特征,同时确定第二深度神经网络输出的目标值;
[0017]在所述目标值用于指示所述语音活性特征满足预设特征的情况下,确定所述语音数据样本对应的初始语音数据,并提取所述初始语音数据对应的第四特征;
[0018]基于所述第三特征和所述第四特征计算损失函数值,在所述损失函数值小于预设阈值的情况下,将所述预设神经网络模型确定为所述语音处理模型。
[0019]根据本申请实施例的另一个方面,还提供了一种语音数据的降噪方法,包括:
[0020]获取待处理的原始语音数据;
[0021]将所述原始语音数据输入预先训练的语音处理模型,以使所述语音处理模型提取所述原始语音数据的特征,并基于所述特征输出目标值和目标语音特征;
[0022]在所述目标值用于表示所述目标语音特征满足预设特征的情况下,基于所述目标语音特征生成目标语音数据,所述预设特征为不携带噪声的语音数据的特征。
[0023]进一步的,所述将所述目标语音数据输入预先训练的语音处理模型,以使所述语音处理模型输出目标值和目标语音特征,包括:
[0024]将所述原始语音数据输入所述语音处理模型,以使所述语音处理模型中的卷积神经网络提取所述原始语音数据的原始特征,将所述原始特征分别输入至所述连接单元和所述第二循环神经网络,第二循环神经网络检测第一原始特征中的原始语音活性特征以及原始噪声语音特征,并提取原始语音活性特征,将原始语音活性特征分别输入连接单元和第二深度神经网络,连接单元对原始特征和原始语音活性特征进行拼接得到拼接特征,将所述拼接特征输入第一循环神经网络,并由第一循环神经网络检测拼接特征中的目标语音活性特征和目标噪声语音特征,提取目标语音活性特征,将目标语音活性特征输入第一深度神经网络进行特征叠加得到目标语音特征,同时确定第二深度神经网络输出的目标值。
[0025]根据本申请实施例的另一个方面,还提供了一种语音处理模型的训练装置,包括:
[0026]第一获取模块,用于获取语音数据样本,其中,所述语音样本数据中包括多帧经过噪声混合后得到的语音数据;
[0027]第二获取模块,用于获取所述语音数据样本对应的标签信息,其中,所述标签信息用于标记所述语音数据样本中的纯净语音特征,噪声语音特征以及语音活性特征;
[0028]确定模块,用于确定预设神经网络模型;
[0029]训练模块,用于利用所述语音数据样本和所述标签信息对所述预设神经网络模型进行训练,以使所述预设神经网络模型学习所述纯净语音特征与所述噪声语音特征,以及所述噪声语音特征与所述语音活性特征之间的对应关系,得到语音处理模型。
[0030]根据本申请实施例的另一个方面,还提供了一种语音数据的降噪装置,包括:
[0031]获取模块,用于获取待处理的原始语音数据;
[0032]提取模块,用于将所述原始语音数据输入预先训练的语音处理模型,以使所述语音处理模型提取所述原始语音数据的特征,并基于所述特征输出目标值和目标语音特征;
[0033]处理模块,用于在所述目标值用于表示所述目标语音特征满足预设特征的情况下,基于所述目标语音特征生成目标语音数据,所述预设特征为不携带噪声的语音数据的特征。
[0034]根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
[0035]根据本申请实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理模型的训练方法,其特征在于,包括:获取语音数据样本,其中,所述语音样本数据中包括多帧经过噪声混合后得到的语音数据;获取所述语音数据样本对应的标签信息,其中,所述标签信息用于标记所述语音数据样本中的纯净语音特征,噪声语音特征以及语音活性特征;确定预设神经网络模型;利用所述语音数据样本和所述标签信息对所述预设神经网络模型进行训练,以使所述预设神经网络模型学习所述纯净语音特征与所述噪声语音特征,以及所述噪声语音特征与所述语音活性特征之间的对应关系,得到语音处理模型。2.根据权利要求1所述的方法,其特征在于,所述获取语音数据样本,包括:获取初始语音数据,其中,所述初始语音数据为携带纯净语音特征以及语音活性特征的语音数据;确定多种类型的初始噪声特征以及预设信噪比;按照所述预设信噪比对所述初始语音数据和所述初始噪声特征进行混合,得到所述语音数据样本。3.根据权利要求1所述的方法,其特征在于,所述预设神经网络模型中包括:卷积神经网络、第一循环神经网络、第二循环神经网络、第一深度神经网络以及第二深度神经网络;所述卷积神经网络分别连接所述第一循环神经网络和所述第二循环神经网络,所述第一循环神经网络与所述第一深度神经网络连接,所述第二循环神经网络与所述第二深度神经网络连接,其中,所述卷积神经网络通过连接单元与所述第一循环神经网络连接,所述第二循环神经网络还通过所述连接单元与所述第一循环神经网络连接。4.根据权利要求3所述的方法,其特征在于,所述利用所述语音数据样本和所述标签信息对所述预设神经网络模型进行训练,以使所述预设神经网络模型学习所述纯净语音特征与所述噪声语音特征,以及所述噪声语音特征与所述语音活性特征之间的对应关系,得到语音处理模型,包括:将所述语音数据样本输入所述预设神经网络模型,以使所述预设神经网络模型中的卷积神经网络提取所述语音数据样本的第一特征,将所述第一特征分别输入至所述连接单元和所述第二循环神经网络,所述第二循环神经网络检测所述第一特征中的第一语音活性特征以及第一噪声语音特征,并提取所述第一语音活性特征,将所述第一语音活性特征分别输入所述连接单元和所述第二深度神经网络,所述连接单元对所述第一特征和所述第一语音活性特征进行拼接得到第二特征,将所述第二特征输入所述第一循环神经网络,并由所述第一循环神经网络检测所述第二特征中的第二语音活性特征和第二噪声语音特征,提取所述第二语音活性特征,将所述第二语音活性特征输入所述第一深度神经网络进行特征叠加得到第三特征,同时确定第二深度神经网络输出的目标值;在所述目标值用于指示所述语音活性特征满足预设特征的情况下,确定所述语音数据样本对应的初始语音数据,并提取所述初始语音数据对应的第四特征;基于所述第三特征和所述第四特征计算损失函数值,在所述损失函数值小于预设阈值的情况下,将所述预设神经网络模型确定为所述语音处理模型。5.一种语音数据的降噪方法,其特征在于,包括:
...

【专利技术属性】
技术研发人员:关海欣梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1