一种基于神经网络模型的会议终端语音降噪方法技术

技术编号:19861469 阅读:26 留言:0更新日期:2018-12-22 12:36
本发明专利技术提供一种基于神经网络模型的会议终端语音降噪方法,包括1、会议终端设备对音频文件进行采集,生成时域的数字音频信号;2、将数字音频信号分帧并进行短时傅里叶变换;3、将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;4、利用梅尔倒谱系数计算一阶和二阶差分系数,在每个频带上计算出基音相关系数,再提取基音周期特征和VAD特征;5、将音频的输入特征参数作为神经网络模型的输入,离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好权重固化出来;6、使用神经网络模型学习后产生频带增益,将输出的频带增益映射到频谱,加上相位信息,通过傅里叶逆变换还原成降噪后的语音信号。本发明专利技术可达到实时降噪的目的。

【技术实现步骤摘要】
一种基于神经网络模型的会议终端语音降噪方法
本专利技术涉及语音处理和通信
,尤其涉及一种基于神经网络模型的会议终端语音降噪方法。
技术介绍
语音降噪技术是指将带噪的音频信号中去掉噪声部分,拥有广泛的应用,如应用在移动终端、会议终端设备。语音降噪技术的研究,由来已久,单声道语音降噪是非常具有挑战性的课题。只用一个麦克风进行语音降噪,不仅可以降低设备成本,而且在实际的使用中更加方便。现有技术中是以原始的幅度谱作为神经网络的输入,输入节点过多导致计算量偏大,影响实时语音通讯,需要对幅度谱进一步压缩。以幅度谱增益为神经网络的输出,输出节点越多,计算量越大,由于人耳对信号的感知特性,通过频谱分段,提取特征,减小输出节点数,然后由神经网络的输出增益差值扩展得到整个幅度谱增益。输出节点越少,计算量越小,但同时导致差值扩展时误差越大,尤其是当信噪比较低时,一些较弱的语音信号会明显抑制导致声音断续。
技术实现思路
本专利技术要解决的技术问题,在于提供一种基于神经网络模型的会议终端语音降噪方法,通过会议终端设备的单麦克风采集音频信号源,提取音频特征,通过神经网络强大的特征学习能力,生成降噪的语音信号特征,加上原始语音信号的相位信息,通过傅里叶逆变换还原成语音信号,发送给接收端,达到实时降噪的目的。本专利技术的问题是这样实现的:一种基于神经网络模型的会议终端语音降噪方法,包括如下步骤:步骤1、会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;步骤5、将音频的输入特征参数作为神经网络模型的输入,将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出,将输出的频带增益通过线性插值的方式映射到频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号。进一步地,所述步骤2具体为:将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变。进一步地,所述步骤3具体为:使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数。进一步地,所述步骤4中利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,具体为:一阶差分系数的计算可以采用公式(1):公式(1)中,dt表示第t个一阶差分系数;Ct表示第t个梅尔倒谱系数;Ct+1表示第t+1个梅尔倒谱系数;Ct-1表示第t-1个梅尔倒谱系数;Ct-k表示第t-k个梅尔倒谱系数;Q表示梅尔倒谱系数的阶数,取1;K表示一阶导数的时间差;k表示求和公式的一个遍历值;二阶差分系数的计算可以采用公式(2):公式(2)中,nt表示第t个二阶差分系数;dt表示第t个一阶差分系数;dt+1表示第t+1个一阶差分系数;dt-1表示第t-1个一阶差分系数;dt-k表示第t-k个一阶差分系数;Q表示梅尔倒谱系数的阶数,取2;K表示二阶导数的时间差;k表示求和公式的一个遍历值。进一步地,所述步骤5中将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用具体为:在神经网络模型的训练阶段,采用大量的语音文件和噪声文件,其中包括90个不同的人的发声的语音文件以及28个常见的噪声文件,结合一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征通过混合方式产生数千小时的训练集,通过神经网络的前向传播,输出预测值,比较预测值与正确值计算出误差,将误差反向传播调整神经网络的权重和偏置,最终神经网络达到全局最优解,神经网络模型训练完成;在神经网络模型的测试阶段,只需把神经网络模型中的权重固化出来,每次计算的时候调用即可完成输出。进一步地,所述步骤6之后还包括:步骤7、对降噪后的语音信号进行VAD检测,当检测到当前信号为语音信号时,结合当前信噪比修正幅度谱增益,减小对弱语音信号的抑制,信噪比越大,幅度谱增益系数越大,信噪比即当前信号幅度与噪声幅度的比值;当检测到当前信号为非语音信号时,更新噪声幅度为:N(n)=a*N(n-1)+(1-a)*X(n),其中N(n)为噪声幅度,X(n)为当前信号幅度,a为衰减系数。本专利技术的优点在于:通过神经网络模型的强大的特征学习能力,对音频特征进行学习,回归训练出降噪语音的音频特征,另外通过提取高级语义表达的音频特征,进一步减少了神经网络的计算量,保证了该算法的实时性。附图说明下面参照附图结合实施例对本专利技术作进一步的说明。图1为本专利技术一种基于神经网络的会议终端语音降噪方法的执行流程图。图2为本专利技术的神经网络模型框架图。具体实施方式为使得本专利技术更明显易懂,现以一优选实施例,并配合附图作详细说明如下。如图1所示,本专利技术的一种基于神经网络模型的会议终端语音降噪方法,包括如下步骤:步骤1、一个单麦克风的会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;具体为:将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变;步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;具体为:使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数(M本文档来自技高网...

【技术保护点】
1.一种基于神经网络模型的会议终端语音降噪方法,其特征在于:包括如下步骤:步骤1、会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;步骤5、将音频的输入特征参数作为神经网络模型的输入,将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出,将输出的频带增益通过线性插值的方式映射到频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号。...

【技术特征摘要】
1.一种基于神经网络模型的会议终端语音降噪方法,其特征在于:包括如下步骤:步骤1、会议终端设备对音频文件进行采集,生成时域的数字音频信号,该时域的数字音频信号混有语音信号和噪声信号;步骤2、将该时域的数字音频信号分帧并进行短时傅里叶变换后由时域转到频域;步骤3、根据人的听觉特性,将频域的幅度谱映射到频带中,进而求其梅尔倒谱系数;步骤4、利用梅尔倒谱系数计算出一阶差分系数以及二阶差分系数,在每个频带上计算出基音相关系数,再提取时域的数字音频信号的基音周期特征和VAD特征,将梅尔倒谱系数、一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征作为音频的输入特征参数;步骤5、将音频的输入特征参数作为神经网络模型的输入,将一阶差分系数、二阶差分系数、基音相关系数、基音周期特征和VAD特征用来离线训练神经网络,使其学习到生成降噪语音的频带增益,训练好的权重固化出来,供每次算法调用;步骤6、使用具有长短期记忆的神经网络模型学习后产生频带增益并输出,将输出的频带增益通过线性插值的方式映射到频谱,并得到频谱上每个频点的增益,再加上时域的数字音频信号的相位信息,通过傅里叶逆变换,最终还原成降噪后的语音信号。2.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤2具体为:将该时域的数字音频信号进行分帧,设置每10ms为一帧,共N帧,N为正整数;在第1帧前面设置第0帧作为补偿帧,在第N帧后面设置第N+1帧作为补偿帧,从第1帧开始至第N帧每次处理当前帧和前一帧共20ms的数字音频信号,相邻帧之间具有10ms的重叠,从第1帧至第N帧的每一帧都进行短时傅里叶变换处理两次以加强算法的可靠性,第1帧至第N帧都处理完毕后就完成了由时域的数字音频信号到频域的数字音频信号的转变。3.如权利要求1所述的一种基于神经网络模型的会议终端语音降噪方法,其特征在于:所述步骤3具体为:使用梅尔尺度模拟人耳对频带的非线性感知,从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器,每个带通滤波器对输入的频域的数字音频信号进行滤波;将每个带通滤波器输出的信号能量作为频域的数字音频信号的基本特征,对该基本特征计算其梅尔倒谱系数。4.如权利要求1所述的一种基于神经网络...

【专利技术属性】
技术研发人员:薛建清陈东敏刘敏何志辉
申请(专利权)人:福建星网智慧科技股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1