语音降噪方法、装置、设备及介质制造方法及图纸

技术编号:24941985 阅读:27 留言:0更新日期:2020-07-17 21:50
本发明专利技术公开了一种语音降噪方法,涉及机器学习领域,用于解决现有语音降噪计算量大、资源占用多的问题,该方法包括以下步骤:获取语音数据;对所述语音数据进行预处理,并提取预处理后的所述语音数据的多维特征;将所述多维特征输入预设语音降噪模型,得到频带增益系数;将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。本发明专利技术还公开了一种语音降噪装置、电子设备和计算机存储介质。本发明专利技术通过计算频带增益系数,进而实现语音降噪。

【技术实现步骤摘要】
语音降噪方法、装置、设备及介质
本专利技术涉及机器学习
,尤其涉及一种语音降噪方法、装置、设备及介质。
技术介绍
噪声抑制从上世纪70年代开始就已经成为了高关注度的话题。传统噪声抑制算法都需要噪声频谱估计器,噪声频谱估计器本身由语音活动检测器(VAD)或类似的算法驱动,噪声频谱估计器的每个组件都需要准确的估计器,对精度要求高,需要大量的人工调参工作,效率低,只要有一个参数不够精确,就容易影响降噪效果。现有技术开始通过深度学习技术进行噪声抑制,普遍做法是在工程问题中引入深层神经网络,这样的方法称为端到端——神经元接受并传递信息,使得误差最小化;端对端方法已被应用于语音识别和语音合成等工程问题,并且效果显著。但是,深度学习的模型需要占用大量资源,造成资源的浪费。例如,噪声抑制的一些方法使用具有数千个神经元和数千万个权重的层来执行噪声抑制,导致模型运行网络所需的计算成本巨大,模型本身的规模也难以控制,并且需要存储数千行代码以及几十兆字节的神经元权重;通过这些方法进行语音降噪时,对系统的要求高,计算量大。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种语音降噪方法,其通过提取语音数据的多维特征并输入语音降噪模型,进而得到频带增益系数,并根据频带增益系数对语音数据进行分频带降噪。本专利技术的目的之一采用以下技术方案实现:一种语音降噪方法,包括以下步骤:获取语音数据;对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;<br>将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。进一步地,获取语音数据,包括以下步骤:每隔10ms采集一帧所述语音数据,采样率为48kHz。进一步地,所述预处理包括:对所述语音数据进行FFT变换。进一步地,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据,包括以下步骤:通过梳状滤波器过滤所述语音数据,并根据所述预设语音降噪模型中的频带数量,将过滤后的所述语音数据分为若干频带;根据所述频带增益系数对每个频带的语音数据进行滤波,过滤噪音数据。进一步地,提取预处理后的所述语音数据的多维特征,包括以下步骤:将每一帧所述语音数据的频谱划分为22个不等分频带,并对每个所述频带的能量进行dct变换,得到22个巴克频率倒谱系数,作为第一特征;提取所述第一特征中的前6维特征,计算一阶和二阶导数,得到12维特征,作为第二特征;提取所述频带的前6个频带,进行基因周期dct变换,得到六维特征及1个基因周期系数,作为第三特征;提取所述频带的前8个频带,计算所述前八个频带的差异值之和,得到1个稳定性系数,作为第四特征;计算每一帧所述语音数据的帧能量、过零率、延迟一个位置处标准化自相关系数、12阶线性预测的第一个系数及12阶线性预测误差,作为第五特征;所述多维特征包括所述第一特征、所述第二特征、所述第三特征、所述第四特征及所述第五特征。进一步地,所述预设语音降噪模型的训练过程包括以下步骤:获取预先构建的循环神经网络,所述循环神经网络包括3个全连接层和3个GRU网络;获取训练数据,所述训练数据包括纯净语音数据及噪声数据;对所述训练数据进行分帧处理,并提取每一帧训练数据的多维特征;初始化所述循环神经网络的网络参数,将所述每一帧训练数据的多维特征输入所述循环神经网络进行模型训练,并根据损失函数进行模型优化,得到所述预设语音降噪模型。进一步地,将所述多维特征输入预设语音降噪模型,得到频带增益系数,所述频带增益系数的计算公式为:,其中gb为所述频带增益系数,为纯净语音的能量,为含有噪声的能量;所述损失函数计算公式为:,其中为将增益的估计值,γ为感知参数,为频带增益系数感知值,为增益估计值的感知值。本专利技术的目的之二在于提供一种语音降噪装置,其通过提取语音数据的多维特征并输入语音降噪模型,进而得到频带增益系数,并根据频带增益系数对语音数据进行分频带降噪。本专利技术的目的之二采用以下技术方案实现:一种语音降噪装置,其包括:获取模块,用于获取语音数据;过滤模块,用于对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;输出模块,用于将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。本专利技术的目的之三在于提供执行专利技术目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的语音降噪方法。本专利技术的目的之四在于提供存储专利技术目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音降噪方法。相比现有技术,本专利技术的有益效果在于:本专利技术通过频带增益系数进行语音降噪,只需对语音数据进行频带划分,并对频带进行噪音过滤就可以实现语音降噪,并且只对检测到语音信号的语音数据进行滤波降噪,减少了无语音信号时的计算量,大大降低了语音降噪时的计算复杂度,降噪效率高,可以实现实时降噪,且无需占用大量资源。附图说明图1是实施例一的语音降噪方法的流程图;图2是实施例一的多维特征提取方法的流程图;图3是实施例二的模型训练方法的流程图;图4是实施例三的语音降噪装置的结构框图;图5是实施例四的电子设备的结构框图。具体实施方式以下将结合附图,对本专利技术进行更为详细的描述,需要说明的是,以下参照附图对本专利技术进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。实施例一实施例一提供了一种语音降噪方法,旨在通过频带增益系数实现语音降噪。请参照图1所示,一种语音降噪方法,包括以下步骤:S110、获取语音数据;为了实现实时语音降噪,本实施例中每隔10ms采集一帧语音数据,采样率为48kHz。当然,在非实时语音降噪的情况下,只需对语音数据进行分帧,并逐帧对语音数据进行降噪处理。语音数据的来源例如机器人麦克风获得的嘈杂环境的语音数据流,本实施例不对具体来源作限定。S120、对所述语音数据进行预处理,提取本文档来自技高网...

【技术保护点】
1.一种语音降噪方法,其特征在于,包括以下步骤:/n获取语音数据;/n对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;/n将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;/n当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;/n当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;/n将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。/n

【技术特征摘要】
1.一种语音降噪方法,其特征在于,包括以下步骤:
获取语音数据;
对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;
将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;
当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;
当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;
将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。


2.如权利要求1所述的语音降噪方法,其特征在于,获取语音数据,包括以下步骤:
每隔10ms采集一帧所述语音数据,采样率为48kHz。


3.如权利要求1所述的语音降噪方法,其特征在于,所述预处理包括:对所述语音数据进行FFT变换。


4.如权利要求1所述的语音降噪方法,其特征在于,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据,包括以下步骤:
通过梳状滤波器过滤所述语音数据,并根据所述预设语音降噪模型中的频带数量,将过滤后的所述语音数据分为若干频带;
根据所述频带增益系数对每个频带的语音数据进行滤波。


5.如权利要求1所述的语音降噪方法,其特征在于,提取预处理后的所述语音数据的多维特征,包括以下步骤:
将每一帧所述语音数据的频谱划分为22个不等分频带,并对每个所述频带的能量进行dct变换,得到22个巴克频率倒谱系数,作为第一特征;
提取所述第一特征中的前6维特征,计算一阶和二阶导数,得到12维特征,作为第二特征;
提取所述频带的前6个频带,进行基因周期dct变换,得到六维特征及1个基因周期系数,作为第三特征;
提取所述频带的前8个频带,计算所述前八个频带的差异值之和,得到1个稳定性系数,作为第四特征;
计算每一帧所述语音数据的帧能量、过零率、延迟一个位置处标准化自相关系数、12阶线性预测的第一个系数及12阶线性预测误差,...

【专利技术属性】
技术研发人员:丁大为王哲嵇望
申请(专利权)人:浙江远传信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1