一种基于RNN的实时会议降噪方法及装置制造方法及图纸

技术编号:20223167 阅读:31 留言:0更新日期:2019-01-28 21:17
本发明专利技术公开了一种基于RNN的实时会议降噪方法,对语音信号进行分帧加窗处理得到语音信号的对数谱,将对数谱放入RNN模型中确定降噪抑制系数,通过降噪抑制系数到原始信号的对数谱得到降噪后的语音信号,实现了将RNN降噪方法在实时会议中的应用。由于本发明专利技术利用了GRU模型可以一定程度上保留前些时刻的信息的特点为语音信号的分帧加窗选择了合适的窗长,所以在输入RNN模型进行估算时,仅需输入当前帧的对数谱,本发明专利技术所述的RNN模型对输入信息的要求低,无需对接收到的语音信号做大量的预处理,这也进一步的减少了运算量,加快了响应速度,提高了实时性,提供了一种可以在实时会议中使用的基于RNN的降噪方法。

【技术实现步骤摘要】
一种基于RNN的实时会议降噪方法及装置
本专利技术涉及实时会议降噪方法及系统,尤其涉及一种基于RNN的实时会议降噪方法及装置。
技术介绍
实时会议系统数十年来都在解决一个问题,就是噪声与语音的是分离。主要解决的问题是实时会议过程中,当麦克风拾到发言人的同时也会同时拾取到周围环境的噪声(空调噪声,键盘噪声,环境底噪等)。现在应用方向主要分成两个方面。一种是依靠多个麦克风装置的麦克风阵列降噪,这种是依赖多个麦克风同时拾音,计算多个信号之间的相位差,获取发声源的空间信息。通过MVDR等技术消去旁边的声源,提高信噪比。但是缺陷是需要装置成本高,部署麻烦。而且对与发言人同一个方向的噪声没有效果。一种是使用单个麦克风进行传统噪声抑制,通过噪声的特性进行噪声估计,然后再进行噪声抑制。优点是部署简易,缺点是只能针对环境平稳底噪有明显效果。利用环境底噪是基于平稳高斯分布。但是对突发性噪声无法进行正确的估计。近些年来有开始利用深度学习技术进行噪声抑制的技术。深度学习基于机器学习理论,通过建立和模拟人脑进行分析学习的神经网络。GeofferyHinton提出一种由多个受限玻尔兹曼机(RBM,RestrictedBoltzmannmachines)叠加而成的深度信念网络(DBN,DeepBeliefNeworks)的深度学习(DNN)方法(AFastLearningAlgorithmforDeepBeliefNets)。近两年开始有通过大量标定的噪声数据和语音进行学习语音的特性,来进行语音降噪的功能。这种利用大量标定的噪声数据和语音学习语音的特性,来进行语音降噪的方法可以通过回归神经网络(RNN)来实现,但是目前利用RNN实现的语音降噪依旧存在许多问题限制了基于RNN的降噪方法在实时会议中的应用,首当其冲的一点是目前的RNN语音降噪方法难以满足实时会议提出的实时性要求,其次是基于RNN降噪方法的数据处理量大难以集成与实时会务系统中使用。由于RNN降噪方法存在实时性差,运算量大的缺点,致使这种具有较好效果的降噪方法不能使用在实时会议系统中,对此,人们需要只用可以在实时会议中使用的RNN降噪方法。
技术实现思路
本专利技术提供了一种基于RNN的实时会议降噪方法及装置,旨在解决目前RNN降噪方法存在实时性差,运算量大的缺点,不能在实时会议系统中使用的问题。为实现上述目的,本专利技术提供了一种基于RNN的实时会议降噪方法,包括以下步骤:S1,对使用GRU的RNN模型进行训练确定RNN模型的合适参数,得到训练完成的RNN模型;S2,对采集单元传输的语音信号进行分帧加窗,计算得到语音信号每帧在频域上的对数谱;S3,将当前帧的对数谱放入训练完成的RNN模型进行估算,得到当前语音的估计对数谱;S4,根据估计对数谱与原始信号的对数谱进行估计,算出当前帧的信噪比,根据信噪比计算出当前的降噪抑制系数;S5,应用降噪抑制系数到原始信号的对数谱,对结果进行窗重叠和傅里叶逆变换,通过网络发送到对应的播放设备上,对处理后的信号进行播放。与现有技术相比,本专利技术公开的一种基于RNN的实时会议降噪方法,对语音信号进行分帧加窗处理得到语音信号的对数谱,将对数谱放入RNN模型中确定降噪抑制系数,通过降噪抑制系数到原始信号的对数谱得到降噪后的语音信号,实现了将RNN降噪方法在实时会议中的应用。具体而言,由于本通常的RNN模型由于无法很好处理远距离依赖而不适用于实时会议中的降噪,而对于可以很好处理远距离依赖的LSTM又存在则结构复杂,设计困难大,运算量大,实时性要求难以满足等问题,而不能使用在实时会议降噪中,而GRU的结构相对简单适合使用在实时会议降噪中,专利技术在RNN模型选择了采用GRU的RNN模型。本专利技术使用GRU的模型,通过更新门和重置门,一定程度上保留前些时刻的信息,保证训练模型的可靠性。由于本专利技术利用了GRU模型可以一定程度上保留前些时刻的信息的特点,并为语音信号的分帧加窗选择了合适的窗长,所以在输入RNN模型进行估算时,仅需输入当前帧的对数谱,本专利技术所述的RNN模型对输入信息的要求低,无需对接收到的语音信号做大量的预处理,这也进一步的减少了运算量,加快了响应速度,提高了实时性。同时,本专利技术在进行信号对于是采用的是频域上的对数谱,对数谱可以极其明显的突出信号变化,在进行信号对比时采用对数谱可以方面信号对比,本专利技术采用频域上的对数谱也是为了进一步减少信号对比时间,提高本专利技术的实时性。最后,在通过降噪抑制系数对原始信号的对数谱进行处理后,对处理结果进行窗重叠和傅里叶逆变换,由于降噪后的信号依然经过窗重叠处理,可以进一步的保证信号的处理效果,避免过分降噪,保证语音完整。对此,本专利技术通过对语音信号进行分帧加窗,采取合适的窗长度,采用使用GRU的RNN模型,采用频域上的对数谱进行信号对比,降低了一般RNN降噪方法的运算量,简化的模型结构和信号处理过程,提高了实时性,并且通过对降噪后的信号依然经过窗重叠处理,避免过分降噪,保证语音完整。本专利技术提供的一种基于RNN的实时会议降噪方法,解决目前RNN降噪方法存在实时性差,运算量大的缺点,不能在实时会议系统中使用的问题,提供了一种结构简单,信号处理简单,数据运算量小,实时性高的,可以在实时会议中使用的基于RNN的降噪方法。进一步,所述步骤S1包括以下步骤:S11,采集纯净语音信号和噪音语音信号,对纯净语音信号和噪音语音信号进行时域上的叠加,产生带噪语音信号;S12,对带噪语音信号和纯净语音信号分别进行分帧加窗,计算每帧在频域上的对数谱,将带噪语音信号的对数谱和纯净语音信号的对数谱进行对比得到对应的准确抑制参数;S22,将分帧加窗后得到的带噪语音信号的对数谱作为使用GRU的RNN模型的输入;S23,带噪语音信号的对数谱经过一个全连接层和两个GRU层后生成对应的估计对数谱,根据估计对数谱和带噪语音信号的对数谱得到期望抑制参数;S24,使用期望抑制参数和准确抑制参数计算均方误差,判断均方误差是否小于阈值,是则结束步骤,不是则利用均方误差进行求导,更新使用GRU的RNN模型的参数并返回步骤S11。本专利技术提供的一种基于RNN的实时会议降噪方法,通过对采用GRU的RNN模型进行训练,确定RNN模型的合适参数。所述训练信号通过纯净语音信号和噪音语音信号合成带噪语音信号,计算准确抑制参数和期望抑制参数的均方差,利用均方误差求导更新使用GRU的RNN模型的参数。本专利技术中的期望抑制参数由估计对数谱和带噪语音信号的对数谱计算得到,所述估计对数谱由带噪语音信号的对数谱经过一个全连接层和两个GRU层后生成。所述的一个全连接层和两个GRU层即为本专利技术采用的RNN模型结构,该RNN模型由一个全连接层和两个GRU层构成,模型结构简单,并且GRU层本身的结构也较为简单,本专利技术采用RNN模型结构简单,一定程度上提高了信号降噪的实时性,并且,这种RNN模型虽然结构简单,但是配合信号处理步骤和GRU本身的特点,也可以实现非常好的降噪效果。故而,本专利技术提供的这种RNN模型,实现了RNN降噪在实时会议中的使用,解决目前RNN降噪方法存在实时性差,运算量大的缺点,不能在实时会议系统中使用的问题,提供了一种结构简单,信号处理简单,数据运算量小,实时性高的,可以在实时会议中使用的本文档来自技高网
...

【技术保护点】
1.一种基于RNN的实时会议降噪方法,其特征在于,包括以下步骤:S1,对使用GRU的RNN模型进行训练确定RNN模型的合适参数,得到训练完成的RNN模型;S2,对采集单元传输的语音信号进行分帧加窗,计算得到语音信号每帧在频域上的对数谱;S3,将当前帧的对数谱放入训练完成的RNN模型进行估算,得到当前语音的估计对数谱;S4,根据估计对数谱与原始信号的对数谱进行估计,算出当前帧的信噪比,根据信噪比计算出当前的降噪抑制系数;S5,应用降噪抑制系数到原始信号的对数谱,对结果进行窗重叠和傅里叶逆变换,通过网络发送到对应的播放设备上,对处理后的信号进行播放。

【技术特征摘要】
1.一种基于RNN的实时会议降噪方法,其特征在于,包括以下步骤:S1,对使用GRU的RNN模型进行训练确定RNN模型的合适参数,得到训练完成的RNN模型;S2,对采集单元传输的语音信号进行分帧加窗,计算得到语音信号每帧在频域上的对数谱;S3,将当前帧的对数谱放入训练完成的RNN模型进行估算,得到当前语音的估计对数谱;S4,根据估计对数谱与原始信号的对数谱进行估计,算出当前帧的信噪比,根据信噪比计算出当前的降噪抑制系数;S5,应用降噪抑制系数到原始信号的对数谱,对结果进行窗重叠和傅里叶逆变换,通过网络发送到对应的播放设备上,对处理后的信号进行播放。2.根据权利要求1所述的一种基于RNN的实时会议降噪方法,其特征在于,所述步骤S1包括以下步骤:S11,采集纯净语音信号和噪音语音信号,对纯净语音信号和噪音语音信号进行时域上的叠加,产生带噪语音信号;S12,对带噪语音信号和纯净语音信号分别进行分帧加窗,计算每帧在频域上的对数谱,将带噪语音信号的对数谱和纯净语音信号的对数谱进行对比得到对应的准确抑制参数;S22,将分帧加窗后得到的带噪语音信号的对数谱作为使用GRU的RNN模型的输入;S23,带噪语音信号的对数谱经过一个全连接层和两个GRU层后生成对应的估计对数谱,根据估计对数谱和带噪语音信号的对数谱得到期望抑制参数;S24,使用期望抑制参数和准确抑制参数计算均方误差,判断均方误差是否小于阈值,是则结束步骤,不是则利用均方误差进行求导,更新使用GRU的RNN模型的参数并返回步骤S11。3.根据权利要求2所述的一种基于RNN的实时会议降噪方法,其特征在于,所述全连接...

【专利技术属性】
技术研发人员:康元勋
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1