一种基于时空神经网络的语音去噪方法技术

技术编号:38470547 阅读:9 留言:0更新日期:2023-08-11 14:47
本发明专利技术具体公开了一种基于时空神经网络的语音去噪方法,所述方法包括以下步骤:S1、分割原始语音数据,选取两段分割后的语音片段数据合并后进行快速傅里叶变换;S2、计算频域数据的振幅并输入预设时空神经网络中提取特征点;S3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;S4、将估算实部和估算虚部与频域数据的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理,进而完成该语音片段数据的降噪处理。本发明专利技术模型体量小,适用性广,即使在噪音严重的环境下也可以消除或者有效降低噪音,而且对原始语音的损害较小,而且,本发明专利技术运行速度快,可以在嵌入式设备中运行。可以在嵌入式设备中运行。可以在嵌入式设备中运行。

【技术实现步骤摘要】
一种基于时空神经网络的语音去噪方法


[0001]本专利技术涉及语音去噪
,尤其涉及一种基于时空神经网络的语音去噪方法。

技术介绍

[0002]语音去噪又被称为语音增强,主要是针对于有人声的音频进行处理,目的是去除那些背景噪声,增强音频中人声的可懂性。语音去噪的应用范围很广,可以用于人与人之间的语音通讯,也可以用于很多语音任务的预处理。
[0003]语音去噪的噪声通常被分为两大类,静态和非静态噪音。其中,静态噪音是指不随着时间发生变化变化的噪声,比如菜场的嘈杂声,电台的杂讯声等;非静态噪音是指随时间发生变化的噪声,比如说话时背后突然经过一辆汽车,又比如突然响起的警报声等。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种基于时空神经网络的语音去噪方法,所述方法至少以下步骤:
[0005]S1、将原始带噪声的语音数据分割成若干个语音片段数据,选取一个语音片段数据并与上一次选取的相邻语音片段数据合并后进行快速傅里叶变换,得到对应的频域数据,其中,每一个语音片段数据均包括480个点,频域数据包含481个点;
[0006]S2、计算频域数据振幅并将所计算的振幅输入预设时空神经网络中提取特征点,其中,特征点提取具体过程为:将所述振幅前321个点以每三个点求一次平均,后160个点以每二十个点求一次平均,进而得到包括115个点的特征点;
[0007]S3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;
[0008]S4、将所获取的估算实部和估算虚部与步骤S1中频域数据对应的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理以使窗覆盖部分相加,进而完成该语音片段数据的降噪处理。
[0009]优选地,所述步骤S2中计算频域数据振幅用公式表示为:
[0010][0011]式中,S表示频域数据的振幅,r表示频域数据的实部,i表示频域数据的虚部。
[0012]优选地,所述步骤S3具体为:
[0013]S31、将所提取的特征点输入预设时空神经网络的第一模块中以获取包括36个点的输出数据,其中,第一模块的结构包括依次连接的第一全连接层、Relu激活函数层、Dropout函数层和短时记忆单元算法层;
[0014]S32、将获取的包含36个点的输出数据输入预设时空神经网络的第二模块中获取包含481个点的估算实部和估算虚部,其中,第二模块的结构包括两个并列设置的第二全连接层和第三全连接层。
[0015]优选地,所述步骤S31中短时记忆单元算法层的处理过程具体为:将Dropout函数
层处理后的特征点分别输入四个并列设置的第四全连接层中进行处理,然后将四个第四全连接层的输出结果进行融合,用公式表示为:
[0016]Out=Tanh(R1)*(1

sig(R3+R4))+Tanh(R2)*sig(R3+R4)
[0017]式中,Out表示短时记忆单元算法层的输出结果,R1,R2,R3,R4分别表示四个第四全连接层的输出结果,Tanh表示一种函数,用公式表示为:x表示输入的特征点,sig表示sigmoid激活函数,用公式表示为:其中,R1=W1*x+b1,R2=W2*x+b2,R3=W3*x+b3,R4=W4*x+b4,W1,W2,W3,W4分别表示四个第四全连接层的权重系数,b1,b2,b3,b4分别表示四个第四全连接层的偏置项。
[0018]优选地,所述步骤S32中的短时记忆单元算法层处理过程具体为:将Dropout函数层处理后的特征点分别输入三个并列设置的第五全连接层中进行处理,然后将三个第五全连接层的输出结果进行融合,用公式表示为:
[0019]Out=Tanh(R1

)*(1

sig(R3

))+Tanh(R2

)*sig(R3

)
[0020]式中,R1

,R2

,R3

分别表示三个第五全连接层的处理结果,R1

=W1

*x+b1

,R2

=W2

*x+b2

,R3

=W3

*x+b3

,W1

,W2

,W3

分别表示三个第五全连接层的权重系数,b1

,b2

,b3

分别表示三个第五全连接层的偏置项。
[0021]优选地,所述步骤S32中的短时记忆单元算法层处理过程具体为:将Dropout函数层处理后的特征点输入与Dropout函数层连接的第六全连接层中进行处理,然后将第六全连接层的输出结果平均划分为三份后再进行融合,用公式表示为:
[0022]Out=Softmax(R1

@R2

)@R3

[0023]式中,R1

,R2

,R3

分别表示将第六全连接层的输出结果R

平均分为三份后的输出结果,R

=W

*x+b

,W

表示第六全连接层的权重系数,b

表示第六全连接层的偏置项,@表示矩阵计算。
[0024]优选地,所述步骤S4中采用三角滤波器进行滤波处理,用公式表示为:
[0025]out(r)=r1*r

i1*i
[0026]out(i)=r1*i

i1*r
[0027]式中,r1表示估算实部,i1表示估算虚部。
[0028]优选地,所述步骤S4中利用加窗函数处理具体为:基于加窗函数window overlap

add将当前输出数据与上一次输出数据重叠的部分相加并输出重叠相加后的数据。
[0029]与现有技术比较,本专利技术所提供的一种基于时空神经网络的语音去噪方法,所述语音去噪方法适用性广,即使在噪音严重的环境下也可以消除或者有效降低噪音,而且对原始语音的损害较小;同时,本专利技术运行速度快,模型体量小,可以实现在嵌入式的设备中实时处理带噪声语音。
附图说明
[0030]图1是本专利技术中一种基于时空神经网络的语音去噪方法的流程图,
[0031]图2是本专利技术中预设时空神经网络第一模块的结构构成图,
[0032]图3是本专利技术中预设时空神经网络第二模块的结构构成图,
[0033]图4是本实施例中三种短时记忆单元算法层的结构构成图。
具体实施方式
[0034]为了便于理解本专利技术的结构和操作使用方法,下文结合说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空神经网络的语音去噪方法,其特征在于,所述方法至少以下步骤:S1、将原始带噪声的语音数据分割成若干个语音片段数据,选取一个语音片段数据并与上一次选取的相邻语音片段数据合并后进行快速傅里叶变换,得到对应的频域数据,其中,每一个语音片段数据均包括480个点,频域数据包含481个点;S2、计算频域数据振幅并将所计算的振幅输入预设时空神经网络中提取特征点,其中,特征点提取具体过程为:将所述振幅前321个点以每三个点求一次平均,后160个点以每二十个点求一次平均,进而得到包括115个点的特征点;S3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;S4、将所获取的估算实部和估算虚部与步骤S1中频域数据对应的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理以使窗覆盖部分相加,进而完成该语音片段数据的降噪处理。2.如权利要求1所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤S2中计算频域数据振幅用公式表示为:式中,S表示频域数据的振幅,r表示频域数据的实部,i表示频域数据的虚部。3.如权利要求1所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤S3具体为:S31、将所提取的特征点输入预设时空神经网络的第一模块中以获取包括36个点的输出数据,其中,第一模块的结构包括依次连接的第一全连接层、Relu激活函数层、Dropout函数层和短时记忆单元算法层;S32、将获取的包含36个点的输出数据输入预设时空神经网络的第二模块中获取包含481个点的估算实部和估算虚部,其中,第二模块的结构包括两个并列设置的第二全连接层和第三全连接层。4.如权利要求3所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤S31中短时记忆单元算法层的处理过程具体为:将Dropout函数层处理后的特征点分别输入四个并列设置的第四全连接层中进行处理,然后将四个第四全连接层的输出结果进行融合,用公式表示为:Out=Tanh(R1)*(1

sig(R3+R4))+Tanh(R2)*sig(R3+R4)式中,Out表示短时记忆单元算法层的输出结果,R1,R2,R3,R4分别表示四个第四全连接层的输出结果,Tanh表示一种函数,用公式表示为:x表示输入的特征点,sig表示sigmoid激活函数,用公式表示为:其中,R1=W1*x+b1,R2=W2*x+b2,R3=W3*x+b3,R4=W4*x+b4,W1,W2,W3,W4分别表示四个第四全连接层的权重系数,b1,b2,b3,b4分别表示四个第四全连接层的偏置项。5.如权利要求3所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤S32中的短时记忆单元算法层处理过程具体为:将Dropout函数层处理后的特征点分别输入三个并列设置的第五全连接层中进行处理,然后将三个第五全连接层的输出结果进行融合,
...

【专利技术属性】
技术研发人员:肖镕高卫东
申请(专利权)人:深圳同创音频技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1