一种语音降噪训练数据的处理方法及其装置、训练方法制造方法及图纸

技术编号：30092884 阅读：24 留言：0更新日期：2021-09-18 08:55

本发明专利技术提供了一种语音降噪训练数据的处理方法及其装置、训练方法，该处理方法包括：接收待处理的语音降噪训练数据；将语音降噪训练数据进行分帧；计算每帧语音降噪训练数据单元的第一均方根值；计算多帧语音降噪训练数据单元中的最大均方根值；根据最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理；依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；如果该帧语音降噪训练数据单元的第二均方根值小于噪音阈值，则该帧语音降噪训练数据单元为噪声帧；否则，该帧语音降噪训练数据单元为语音帧。以每帧语音降噪训练数据的时域均方根值为依据，进行语音激活检测，简化语音激活检测的算法，提高运算效率。提高运算效率。提高运算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音降噪训练数据的处理方法及其装置、训练方法

[0001]本专利技术涉及人工智能
，尤其涉及一种语音降噪训练数据的处理方法及其装置、训练方法。

技术介绍

[0002]当前，采用深度神经网络(Deep Neural Network，简称DNN)技术，在语音降噪方面已经取得了很大的成功，尤其对非平稳和类平稳噪声的抑制效果，明显优于传统方法。深度神经网络的训练过程需要大量非常干净的语音数据。但由于录音条件的限制，很多语音数据的底噪较大，且其中不可避免的包含呼吸声，这些干扰因素会直接影响深度神经训练的质量，导致深度网络训练的效果变差。
[0003]现有技术在消除噪声过程中，通常使用最小值跟踪或者最小值控制的递归平均(Minimum Controlled Regressive Averaging，简称MCRA)等算法进行语音激活检测，然后使用谱减法、维纳滤波等算法进行噪声估计并消除噪声。采用该方式，在对语音帧进行降噪时会不可避免的出现语音损伤，虽然人耳对这种损伤往往并不敏感，但使用这种损伤后的语音训练数据进行降噪训练后最终得到的深度神经网络模型会出现较大的语音损伤，导致效果不佳。且传统的降噪算法需要考虑各种复杂的带噪场景，因此运算量较大，尤其是面对大批量的语音训练数据时(100小时以上)，往往需要很长的处理时间(1小时以上)，导致效率不高。

技术实现思路

[0004]本专利技术提供了一种语音降噪训练数据的处理方法及其装置、训练方法，以简化语音激活检测的算法，提高运算效率。
[0005]...

【技术保护点】

【技术特征摘要】
1.一种语音降噪训练数据的处理方法，其中，所述语音降噪训练数据用于训练深度神经网络模型，其特征在于，所述处理方法包括：接收待处理的语音降噪训练数据；将所述语音降噪训练数据进行分帧，获得多帧语音降噪训练数据单元；计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值；计算所述多帧语音降噪训练数据单元的第一均方根值中的最大均方根值；根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值；依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值；如果判断结果为该帧语音降噪训练数据单元的第二均方根值小于所述噪音阈值，则识别该帧语音降噪训练数据单元为噪声帧；如果判断结果为该帧语音降噪训练数据单元的第二均方根值不小于所述噪音阈值，则识别该帧语音降噪训练数据单元为语音帧。2.如权利要求1所述的处理方法，其特征在于，所述计算所述多帧语音降噪训练数据单元中的每帧语音降噪训练数据单元的第一均方根值具体为：采用如下公式计算每帧语音降噪训练数据单元的第一均方根值：其中，i表示帧索引；n表示每帧语音降噪训练数据单元中的时域采样点个数；j表示每帧语音降噪训练数据单元中的各时域采样点索引；x表示每个时域采样点的分贝值；RMS
i
表示第i帧语音降噪训练数据单元的第一均方根值。3.如权利要求2所述的处理方法，其特征在于，所述根据所述最大均方根值对每帧语音降噪训练数据单元的第一均方根值进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值具体为：根据所述最大均方根值对每帧语音降噪训练单元的第一均方根值采用如下公式进行归一化处理，得到每帧语音降噪训练数据单元的第二均方根值：其中，RMS
max
表示所述最大均方根值；RMS
ref
表示归一化参考值；RMS
′
i
表示每帧语音降噪训练数据单元的第二均方根值。4.如权利要求1所述的处理方法，其特征在于，在依次判断每帧语音降噪训练数据单元的第二均方根值是否小于噪音阈值之前，所述处理方法还包括：从所述多个语音降噪训练数据单元中预先抽取出设定个数的噪声帧；计算所述设定个数的语音降噪训练数据单元的第一均方根值的均值和标准差；
按照如下公式计算所述噪音阈值：其中，RMS
threshold
表示所述噪音阈值；表示所述设定个数的语音降噪训练数据单元的第一均方根值的均值；RMS
σ
表示所述设定个数的语音降噪训练数据单元的第一均方根值的标准差；b表示调整系数，b＝2～4。5.如权利要求2所述的处理方法，其调整在于，还包括：对于被识别为语音帧的语音降噪训练数据单元，设置每个语音帧的增益恒为1；对于被识别为噪音帧的语音降噪训练数据单元，采用如下公式计算每个噪音帧的第一增益：其中，g
i
表示每个噪音帧的增益；RMS
target
表示目标信号的均方根值；g
min
表示容许的最小增益值；根据每个语音帧和噪音帧的增益，调整所述语音降噪训练数据的包络线。6.如权利要求5所述的处理方法，其特征在于，所述根据每个语音帧和噪音帧的增益，调整所述语音降噪训练数据的包络线包括：对和每个所述语音帧相邻且连续的至少两个噪音帧中的...

【专利技术属性】
技术研发人员：胡伯承，
申请(专利权)人：展讯通信上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人