神经网络模型的训练方法、语音去噪方法及装置制造方法及图纸

技术编号:20428577 阅读:34 留言:0更新日期:2019-02-23 09:42
本发明专利技术公开了神经网络模型的训练方法、语音去噪方法及装置,神经网络的训练装置通过执行神经网络的训练方法对神经网络进行训练,获取噪声分离神经网络模型;语音去噪装置通过执行语音去噪方法、利用噪声分离神经网络获取测试语音样本中的场景噪声数据或语音数据;最后去除测试声音样本中的场景噪声数据或语音数据,从而解决现有技术中存在的输入不同的待去噪数据时,现有的去噪方法需要根据输入数据的具体情况进行人工调整,从而去噪方法通用性差的技术问题。

【技术实现步骤摘要】
神经网络模型的训练方法、语音去噪方法及装置
本专利技术涉及数据处理领域,尤其涉及神经网络模型的训练方法、语音去噪方法及装置。
技术介绍
目前主流的去噪方法有如下几种:(1)小波去噪,这种方法把信号的频带进行多层次划分,然后自适应地选择相应的频段,使之与信号频谱相匹配,因此在保留数据的细微信息方面有很好的效果。(2)基于正则化的方法,通过在降噪处理过程中加入合适的约束条件,能够把病态过程转变为良态的过程。噪声来源的多样化与噪声分布的差异化导致噪声种类各不相同,因此噪声模型将变得复杂,降噪过程的解态将呈现病态。基于正则化的方法对噪声分布的依赖性较低。该类方法可以分为基于全局的正则化和局部的自适应正则化两种方式。(3)基于伪逆的方法,在基于伪逆的方法中,基于广义逆及奇异值分解(SingularValueDecomposition,SVD)的方法最为常用。广义逆方法是指我们使用输入信号的先验知识来解得退化矩阵的广义逆。然而我们待处理的信号数据通常十分庞大,甚至有的数据超出了一般规模,达到了海量的级别,退化矩阵包括的信息远超过原始数据。对于这种规模的矩阵进行广义逆求解需要消耗大量的时间和精力,在人力物力成本上都得不偿失,因此该方法并不具有普适性。(4)基于统计学的方法,该方法的核心理论是贝叶斯准则,其基本思想是使条件概率最大化从而达到去除噪声的目的。在众多基于统计学的去噪方法中,最大似然估计法与最大后验概率法是最具代表性的方法。在基于统计学的方法中,我们使用一种模型作为条件概率模型。条件概率模型根据噪声分布与种类包括泊松分布模型和高斯分布模型等。先验模型主要包括马尔科夫概率模型与广义高斯概率模型。虽然目前理论上有许多可选的模型,但选择的模型需要与噪声分布进行良好的匹配,否则就会得到不理想的去噪效果。正是由于模型选取的苛刻要求,基于统计学的去噪方法也不是用于噪声源比较复杂的情形,因此该方法在实际应用中具有一定的局限性。现有的去噪方法中,多数的方法都需要人工进行参数的调节,即在待去噪的数据输入之后,人工对去噪方法中的参数进行调节,从而当其它待去噪的数据输入该去噪方法时,还需要再次调节参数才能达到去噪的效果。例如使用小波去噪的方法,在使用小波去噪的方法时需要根据输入的数据的具体应用场合进行小波基的选择,在选定了小波基之后,该方法只能用于这一输入数据的应用场合,而不能用于其它场合。从而现有技术中至少存在以下技术问题:输入不同的待去噪数据时,现有的去噪方法需要根据输入数据的具体情况进行人工调整,从而去噪方法通用性差。
技术实现思路
本专利技术实施例通过提供神经网络模型的训练方法、语音去噪方法及装置,用于解决现有技术中的输入不同的待去噪数据时,现有的去噪方法需要根据输入数据的具体情况进行人工调整,从而去噪方法通用性差的技术问题。第一方面,本专利技术一实施例提供了一种神经网络模型的训练方法,所述方法包括:获取语音样本集,其中,所述语音样本集包括若干个语音样本;获取场景噪声样本集,其中,所述场景噪声样本集包括若干个场景噪声样本;将所述语音样本集中的任一语音样本与所述场景噪声样本集中的任一场景噪声样本组合,直至所述语音样本集中的所有语音样本和所述场景噪声样本集中的所有场景噪声样本都完成组合,从而获取若干个混合声音样本、和包括所述若干个混合声音样本的混合声音样本集;提取所述混合声音样本集中各混合声音样本的时频特征;将所述各混合声音样本的时频特征输入待训练的神经网络模型,训练所述神经网络模型,从而获取噪声分离神经网络模型,其中,所述噪声分离神经网络模型能够获取输入其的测试声音样本中的场景噪音数据或语音数据。可选的,所述提取所述混合声音样本集中各混合声音样本的时频特征,具体包括:分别对所述各混合声音样本进行短时傅里叶变换,从而获取所述各混合声音样本的时频特征。可选的,所述将所述各混合声音样本的时频特征输入待训练的神经网络模型,训练所述神经网络模型,从而获取噪声分离神经网络模型,具体包括:将所述各混合声音样本的时频特征输入待训练的卷积神经网络,训练所述卷积神经网络,并获取各混合声音样本的分类特征;将所述各混合声音样本的分类特征输入待训练的循环神经网络,训练所述循环神经网络,从而获取基于所述卷积神经网络和所述循环神经网络的噪声分离神经网络模型。可选的,所述循环神经网络为LSTM神经网络。第二方面,本专利技术一实施例提供了一种语音去噪方法,所述方法包括:提取测试声音样本的时频特征;将所述测试声音样本的时频特征输入如第一方面中所述的噪声分离神经网络模型,获取所述测试声音样本中的场景噪声数据或语音数据;去除所述测试声音样本中的所述场景噪声数据,获取所述测试声音样本的语音数据;或者,去除所述测试声音样本中的所述语音数据,获取所述测试声音样本的场景噪声数据。可选的,所述提取测试声音样本的时频特征,具体包括:对所述测试声音样本进行短时傅里叶变换,从而获取所述测试声音样本的时频特征。第三方面,本专利技术一实施例提供了一种神经网络模型的训练装置,所述训练装置包括:第一获取单元,用于获取语音样本集,其中,所述语音样本集包括若干个语音样本;第二获取单元,用于获取场景噪声样本集,其中,所述场景噪声样本集包括若干个场景噪声样本;组合单元,用于将所述语音样本集中的任一语音样本与所述场景噪声样本集中的任一场景噪声样本组合,直至所述语音样本集中的所有语音样本和所述场景噪声样本集中的所有场景噪声样本都完成组合,从而获取若干个混合声音样本、和包括所述若干个混合声音样本的混合声音样本集;提取单元,用于提取所述混合声音样本集中各混合声音样本的时频特征;第三获取单元,用于将所述各混合声音样本的时频特征输入待训练的神经网络模型,训练所述神经网络模型,从而获取噪声分离神经网络模型,其中,所述噪声分离神经网络模型能够获取输入其的测试声音样本中的场景噪音数据或语音数据。可选的,所述提取模块,具体用于:分别对所述各混合声音样本进行短时傅里叶变换,从而获取所述各混合声音样本的时频特征。可选的,所述第三获取单元,具体包括:第一获取子单元,用于将所述各混合声音样本的时频特征输入待训练的卷积神经网络,训练所述卷积神经网络,并获取各混合声音样本的分类特征;第二获取子单元,用于将所述各混合声音样本的分类特征输入待训练的循环神经网络,训练所述循环神经网络,从而获取基于所述卷积神经网络和所述循环神经网络的噪声分离神经网络模型。可选的,所述循环神经网络为LSTM神经网络。第四方面,本专利技术一实施例提供了一种语音去噪装置,所述语音去噪装置包括:提取单元,用于提取测试声音样本的时频特征;获取单元,用于将所述测试声音样本的时频特征输入如第一方面或第三方面中所述的噪声分离神经网络模型,获取所述测试声音样本中的场景噪声数据或语音数据;去除单元,用于去除所述测试声音样本中的所述场景噪声数据,获取所述测试声音样本的语音数据;或者,去除所述测试声音样本中的所述语音数据,获取所述测试声音样本的场景噪声数据。可选的,所述提取单元,具体用于:对所述测试声音样本进行短时傅里叶变换,从而获取所述测试声音样本的时频特征。第五方面,本专利技术一实施例提供了一种计算机装置,包括:至少一个处理器,以及与所述至少一个处理器连接的存储器;其中,所述存储器存储本文档来自技高网
...

【技术保护点】
1.一种神经网络模型的训练方法,其特征在于,所述方法包括:获取语音样本集,其中,所述语音样本集包括若干个语音样本;获取场景噪声样本集,其中,所述场景噪声样本集包括若干个场景噪声样本;将所述语音样本集中的任一语音样本与所述场景噪声样本集中的任一场景噪声样本组合,直至所述语音样本集中的所有语音样本和所述场景噪声样本集中的所有场景噪声样本都完成组合,从而获取若干个混合声音样本、和包括所述若干个混合声音样本的混合声音样本集;提取所述混合声音样本集中各混合声音样本的时频特征;将所述各混合声音样本的时频特征输入待训练的神经网络模型,训练所述神经网络模型,从而获取噪声分离神经网络模型,其中,所述噪声分离神经网络模型能够获取输入其的测试声音样本中的场景噪音数据或语音数据。

【技术特征摘要】
1.一种神经网络模型的训练方法,其特征在于,所述方法包括:获取语音样本集,其中,所述语音样本集包括若干个语音样本;获取场景噪声样本集,其中,所述场景噪声样本集包括若干个场景噪声样本;将所述语音样本集中的任一语音样本与所述场景噪声样本集中的任一场景噪声样本组合,直至所述语音样本集中的所有语音样本和所述场景噪声样本集中的所有场景噪声样本都完成组合,从而获取若干个混合声音样本、和包括所述若干个混合声音样本的混合声音样本集;提取所述混合声音样本集中各混合声音样本的时频特征;将所述各混合声音样本的时频特征输入待训练的神经网络模型,训练所述神经网络模型,从而获取噪声分离神经网络模型,其中,所述噪声分离神经网络模型能够获取输入其的测试声音样本中的场景噪音数据或语音数据。2.如权利要求1所述的方法,其特征在于,所述提取所述混合声音样本集中各混合声音样本的时频特征,具体包括:分别对所述各混合声音样本进行短时傅里叶变换,从而获取所述各混合声音样本的时频特征。3.如权利要求1或2所述的方法,其特征在于,所述将所述各混合声音样本的时频特征输入待训练的神经网络模型,训练所述神经网络模型,从而获取噪声分离神经网络模型,具体包括:将所述各混合声音样本的时频特征输入待训练的卷积神经网络,训练所述卷积神经网络,并获取各混合声音样本的分类特征;将所述各混合声音样本的分类特征输入待训练的循环神经网络,训练所述循环神经网络,从而获取基于所述卷积神经网络和所述循环神经网络的噪声分离神经网络模型。4.如权利要求3所述的方法,其特征在于,所述循环神经网络为LSTM神经网络。5.一种语音去噪方法,其特征在于,所述方法包括:提取测试声音样本的时频特征;将所述测试声音样本的时频特征输入如权利要求1所述的噪声分离神经网络模型,获取所述测试声音样本中的场景噪声数据或语音数据;去除所述测试声音样本中的所述场景噪声数据,获取所述测试声音样本的语音数据;或者,去除所述测试声音样本中的所述语音数据,获取所述测试声音样本的场景噪声数据。6.如权利要求5所述的方法,其特征在于,所述提取测试声音样本的时频特征,具体包括:对所述测试声音样本进行短时傅里叶变换,从而获取所述测试声音样本的时频特征。7.一种神经网络模型的训练装置,其特征在于,所述训练装置包括:第一获取单元,用于获取语音样本集,其中,所述语音样本集包括若干个语音样本;第二获取单元,用于获取场景噪声样本集,其中,所述场景噪声样本集包括若干个场景噪声样本;组合单元,用于将所述语音样...

【专利技术属性】
技术研发人员:刘欢陈彦宇马雅奇谭泽汉闫昊
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1