神经网络模型的训练方法、语音去噪方法及装置制造方法及图纸

技术编号：20428577 阅读：34 留言：0更新日期：2019-02-23 09:42

本发明专利技术公开了神经网络模型的训练方法、语音去噪方法及装置，神经网络的训练装置通过执行神经网络的训练方法对神经网络进行训练，获取噪声分离神经网络模型；语音去噪装置通过执行语音去噪方法、利用噪声分离神经网络获取测试语音样本中的场景噪声数据或语音数据；最后去除测试声音样本中的场景噪声数据或语音数据，从而解决现有技术中存在的输入不同的待去噪数据时，现有的去噪方法需要根据输入数据的具体情况进行人工调整，从而去噪方法通用性差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练方法、语音去噪方法及装置
本专利技术涉及数据处理领域，尤其涉及神经网络模型的训练方法、语音去噪方法及装置。
技术介绍
目前主流的去噪方法有如下几种：(1)小波去噪，这种方法把信号的频带进行多层次划分，然后自适应地选择相应的频段，使之与信号频谱相匹配，因此在保留数据的细微信息方面有很好的效果。(2)基于正则化的方法，通过在降噪处理过程中加入合适的约束条件，能够把病态过程转变为良态的过程。噪声来源的多样化与噪声分布的差异化导致噪声种类各不相同，因此噪声模型将变得复杂，降噪过程的解态将呈现病态。基于正则化的方法对噪声分布的依赖性较低。该类方法可以分为基于全局的正则化和局部的自适应正则化两种方式。(3)基于伪逆的方法，在基于伪逆的方法中，基于广义逆及奇异值分解(SingularValueDecomposition，SVD)的方法最为常用。广义逆方法是指我们使用输入信号的先验知识来解得退化矩阵的广义逆。然而我们待处理的信号数据通常十分庞大，甚至有的数据超出了一般规模，达到了海量的级别，退化矩阵包括的信息远超过原始数据。对于这种规模的矩阵进行广义逆求解需要消耗大量的时间和精力，在人力物力成本上都得不偿失，因此该方法并不具有普适性。(4)基于统计学的方法，该方法的核心理论是贝叶斯准则，其基本思想是使条件概率最大化从而达到去除噪声的目的。在众多基于统计学的去噪方法中，最大似然估计法与最大后验概率法是最具代表性的方法。在基于统计学的方法中，我们使用一种模型作为条件概率模型。条件概率模型根据噪声分布与种类包括泊松分布模型和高斯分布模型等。先验模型主要包括马尔...

【技术保护点】
1.一种神经网络模型的训练方法，其特征在于，所述方法包括：获取语音样本集，其中，所述语音样本集包括若干个语音样本；获取场景噪声样本集，其中，所述场景噪声样本集包括若干个场景噪声样本；将所述语音样本集中的任一语音样本与所述场景噪声样本集中的任一场景噪声样本组合，直至所述语音样本集中的所有语音样本和所述场景噪声样本集中的所有场景噪声样本都完成组合，从而获取若干个混合声音样本、和包括所述若干个混合声音样本的混合声音样本集；提取所述混合声音样本集中各混合声音样本的时频特征；将所述各混合声音样本的时频特征输入待训练的神经网络模型，训练所述神经网络模型，从而获取噪声分离神经网络模型，其中，所述噪声分离神经网络模型能够获取输入其的测试声音样本中的场景噪音数据或语音数据。

【技术特征摘要】
1.一种神经网络模型的训练方法，其特征在于，所述方法包括：获取语音样本集，其中，所述语音样本集包括若干个语音样本；获取场景噪声样本集，其中，所述场景噪声样本集包括若干个场景噪声样本；将所述语音样本集中的任一语音样本与所述场景噪声样本集中的任一场景噪声样本组合，直至所述语音样本集中的所有语音样本和所述场景噪声样本集中的所有场景噪声样本都完成组合，从而获取若干个混合声音样本、和包括所述若干个混合声音样本的混合声音样本集；提取所述混合声音样本集中各混合声音样本的时频特征；将所述各混合声音样本的时频特征输入待训练的神经网络模型，训练所述神经网络模型，从而获取噪声分离神经网络模型，其中，所述噪声分离神经网络模型能够获取输入其的测试声音样本中的场景噪音数据或语音数据。2.如权利要求1所述的方法，其特征在于，所述提取所述混合声音样本集中各混合声音样本的时频特征，具体包括：分别对所述各混合声音样本进行短时傅里叶变换，从而获取所述各混合声音样本的时频特征。3.如权利要求1或2所述的方法，其特征在于，所述将所述各混合声音样本的时频特征输入待训练的神经网络模型，训练所述神经网络模型，从而获取噪声分离神经网络模型，具体包括：将所述各混合声音样本的时频特征输入待训练的卷积神经网络，训练所述卷积神经网络，并获取各混合声音样本的分类特征；将所述各混合声音样本的分类特征输入待训练的循环神经网络，训练所述循环神经网络，从而获取基于所述卷积神经网络和所述循环神经网络的噪声分离神经网络模型。4.如权利要求3所述的方法，其特征在于，所述循环神经网络为LSTM神经网络。5.一种语音去噪方法，其特征在于，所述方法包括：提取测试声音样本的时频特征；将所述测试声音样本的时频特征输入如权利要求1所述的噪声分离神经网络模型，获取所述测试声音样本中的场景噪声数据或语音数据；去除所述测试声音样本中的所述场景噪声数据，获取所述测试声音样本的语音数据；或者，去除所述测试声音样本中的所述语音数据，获取所述测试声音样本的场景噪声数据。6.如权利要求5所述的方法，其特征在于，所述提取测试声音样本的时频特征，具体包括：对所述测试声音样本进行短时傅里叶变换，从而获取所述测试声音样本的时频特征。7.一种神经网络模型的训练装置，其特征在于，所述训练装置包括：第一获取单元，用于获取语音样本集，其中，所述语音样本集包括若干个语音样本；第二获取单元，用于获取场景噪声样本集，其中，所述场景噪声样本集包括若干个场景噪声样本；组合单元，用于将所述语音样...

【专利技术属性】
技术研发人员：刘欢，陈彦宇，马雅奇，谭泽汉，闫昊，
申请(专利权)人：珠海格力电器股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人