语音降噪方法、装置、设备及介质制造方法及图纸

技术编号:24941985 阅读:42 留言:0更新日期:2020-07-17 21:50
本发明专利技术公开了一种语音降噪方法,涉及机器学习领域,用于解决现有语音降噪计算量大、资源占用多的问题,该方法包括以下步骤:获取语音数据;对所述语音数据进行预处理,并提取预处理后的所述语音数据的多维特征;将所述多维特征输入预设语音降噪模型,得到频带增益系数;将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。本发明专利技术还公开了一种语音降噪装置、电子设备和计算机存储介质。本发明专利技术通过计算频带增益系数,进而实现语音降噪。

【技术实现步骤摘要】
语音降噪方法、装置、设备及介质
本专利技术涉及机器学习
,尤其涉及一种语音降噪方法、装置、设备及介质。
技术介绍
噪声抑制从上世纪70年代开始就已经成为了高关注度的话题。传统噪声抑制算法都需要噪声频谱估计器,噪声频谱估计器本身由语音活动检测器(VAD)或类似的算法驱动,噪声频谱估计器的每个组件都需要准确的估计器,对精度要求高,需要大量的人工调参工作,效率低,只要有一个参数不够精确,就容易影响降噪效果。现有技术开始通过深度学习技术进行噪声抑制,普遍做法是在工程问题中引入深层神经网络,这样的方法称为端到端——神经元接受并传递信息,使得误差最小化;端对端方法已被应用于语音识别和语音合成等工程问题,并且效果显著。但是,深度学习的模型需要占用大量资源,造成资源的浪费。例如,噪声抑制的一些方法使用具有数千个神经元和数千万个权重的层来执行噪声抑制,导致模型运行网络所需的计算成本巨大,模型本身的规模也难以控制,并且需要存储数千行代码以及几十兆字节的神经元权重;通过这些方法进行语音降噪时,对系统的要求高,计算量大。>专利技术内本文档来自技高网...

【技术保护点】
1.一种语音降噪方法,其特征在于,包括以下步骤:/n获取语音数据;/n对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;/n将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;/n当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;/n当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;/n将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。/n

【技术特征摘要】
1.一种语音降噪方法,其特征在于,包括以下步骤:
获取语音数据;
对所述语音数据进行预处理,提取预处理后的所述语音数据的多维特征;
将所述多维特征输入预设语音降噪模型,得到频带增益系数及语音活动检测参数;
当所述语音活动检测参数为1时,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据;
当所述语音活动检测参数为0时,将所述频带增益系数设为0,并过滤所述频带中的噪音数据;
将过滤后的所述语音数据恢复成语音数据流,输出所述语音数据流。


2.如权利要求1所述的语音降噪方法,其特征在于,获取语音数据,包括以下步骤:
每隔10ms采集一帧所述语音数据,采样率为48kHz。


3.如权利要求1所述的语音降噪方法,其特征在于,所述预处理包括:对所述语音数据进行FFT变换。


4.如权利要求1所述的语音降噪方法,其特征在于,将所述语音数据分为若干频带,根据所述频带增益系数过滤所述频带中的噪音数据,包括以下步骤:
通过梳状滤波器过滤所述语音数据,并根据所述预设语音降噪模型中的频带数量,将过滤后的所述语音数据分为若干频带;
根据所述频带增益系数对每个频带的语音数据进行滤波。


5.如权利要求1所述的语音降噪方法,其特征在于,提取预处理后的所述语音数据的多维特征,包括以下步骤:
将每一帧所述语音数据的频谱划分为22个不等分频带,并对每个所述频带的能量进行dct变换,得到22个巴克频率倒谱系数,作为第一特征;
提取所述第一特征中的前6维特征,计算一阶和二阶导数,得到12维特征,作为第二特征;
提取所述频带的前6个频带,进行基因周期dct变换,得到六维特征及1个基因周期系数,作为第三特征;
提取所述频带的前8个频带,计算所述前八个频带的差异值之和,得到1个稳定性系数,作为第四特征;
计算每一帧所述语音数据的帧能量、过零率、延迟一个位置处标准化自相关系数、12阶线性预测的第一个系数及12阶线性预测误差,...

【专利技术属性】
技术研发人员:丁大为王哲嵇望
申请(专利权)人:浙江远传信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1