一种基于神经网络模型的会议终端语音降噪方法技术

技术编号：19861469 阅读：26 留言：0更新日期：2018-12-22 12:36

本发明专利技术提供一种基于神经网络模型的会议终端语音降噪方法，包括1、会议终端设备对音频文件进行采集，生成时域的数字音频信号；2、将数字音频信号分帧并进行短时傅里叶变换；3、将频域的幅度谱映射到频带中，进而求其梅尔倒谱系数；4、利用梅尔倒谱系数计算一阶和二阶差分系数，在每个频带上计算出基音相关系数，再提取基音周期特征和VAD特征；5、将音频的输入特征参数作为神经网络模型的输入，离线训练神经网络，使其学习到生成降噪语音的频带增益，训练好权重固化出来；6、使用神经网络模型学习后产生频带增益，将输出的频带增益映射到频谱，加上相位信息，通过傅里叶逆变换还原成降噪后的语音信号。本发明专利技术可达到实时降噪的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络模型的会议终端语音降噪方法
本专利技术涉及语音处理和通信
，尤其涉及一种基于神经网络模型的会议终端语音降噪方法。
技术介绍
语音降噪技术是指将带噪的音频信号中去掉噪声部分，拥有广泛的应用，如应用在移动终端、会议终端设备。语音降噪技术的研究，由来已久，单声道语音降噪是非常具有挑战性的课题。只用一个麦克风进行语音降噪，不仅可以降低设备成本，而且在实际的使用中更加方便。现有技术中是以原始的幅度谱作为神经网络的输入，输入节点过多导致计算量偏大，影响实时语音通讯，需要对幅度谱进一步压缩。以幅度谱增益为神经网络的输出，输出节点越多，计算量越大，由于人耳对信号的感知特性，通过频谱分段，提取特征，减小输出节点数，然后由神经网络的输出增益差值扩展得到整个幅度谱增益。输出节点越少，计算量越小，但同时导致差值扩展时误差越大，尤其是当信噪比较低时，一些较弱的语音信号会明显抑制导致声音断续。
技术实现思路
本专利技术要解决的技术问题，在于提供一种基于神经网络模型的会议终端语音降噪方法，通过会议终端设备的单麦克风采集音频信号源，提取音频特征，通过神经网络强大的特征学习能力，生成降噪的语音信号特征，加上原始语音信号的相位信息，通过傅里叶逆变换还原成语音信号，发送给接收端，达到实时降噪的目的。本专利技术的问题是这样实现的：一种基于神经网络模型的会议终端语音降噪方法，包括如下步骤：步骤1、会议终端设备对音频文件进行采集，生成时域的数字音频信号，该时域的数字音频信号混有语音信号和噪声信号；步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域；步骤3、根据人...

【技术保护点】
1.一种基于神经网络模型的会议终端语音降噪方法，其特征在于：包括如下步骤：步骤1、会议终端设备对音频文件进行采集，生成时域的数字音频信号，该时域的数字音频信号混有语音信号和噪声信号；步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域；步骤3、根据人的听觉特性，将频域的幅度谱映射到频带中，进而求其梅尔倒谱系数；步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数，在每个频带上计算出基音相关系数，再提取时域的数字音频信号的基音周期特征和VAD特征，将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数；步骤5、将音频的输入特征参数作为神经网络模型的输入，将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络，使其学习到生成降噪语音的频带增益，训练好的权重固化出来，供每次算法调用；步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出，将输出的频带增益通过线性插值的方式映射到频谱，并得到频谱上每个频点的增益，再加上时域的数字音频信号的相位信息，通过傅里叶逆变换，最终还原成降噪后的语音信号。...

【技术特征摘要】
1.一种基于神经网络模型的会议终端语音降噪方法，其特征在于：包括如下步骤：步骤1、会议终端设备对音频文件进行采集，生成时域的数字音频信号，该时域的数字音频信号混有语音信号和噪声信号；步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域；步骤3、根据人的听觉特性，将频域的幅度谱映射到频带中，进而求其梅尔倒谱系数；步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数，在每个频带上计算出基音相关系数，再提取时域的数字音频信号的基音周期特征和VAD特征，将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数；步骤5、将音频的输入特征参数作为神经网络模型的输入，将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络，使其学习到生成降噪语音的频带增益，训练好的权重固化出来，供每次算法调用；步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出，将输出的频带增益通过线性插值的方式映射到频谱，并得到频谱上每个频点的增益，再加上时域的数字音频信号的相位信息，通过傅里叶逆变换，最终还原成降噪后的语音信号。2.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法，其特征在于：所述步骤2具体为：将该时域的数字音频信号进行分帧，设置每10ms为一帧，共N帧，N为正整数；在第1帧前面设置第0帧作为补偿帧，在第N帧后面设置第N+1帧作为补偿帧，从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号，相邻帧之间具有10ms的重叠，从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性，第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变。3.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法，其特征在于：所述步骤3具体为：使用梅尔尺度模拟人耳对频带的非线性感知，从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器，每个带通滤波器对输入的频域的数字音频信号进行滤波；将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征，对该基本特征计算其梅尔倒谱系数。4.如权利要求1所述的一种基于神经网络...

【专利技术属性】
技术研发人员：薛建清，陈东敏，刘敏，何志辉，
申请(专利权)人：福建星网智慧科技股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人