一种基于神经网络的立体声回声消除方法及系统技术方案

技术编号:24519271 阅读:24 留言:0更新日期:2020-06-17 07:21
本发明专利技术公开一种基于神经网络的立体声回声消除方法及系统,系统输入三路音频信号,分别为麦克风信号、立体声扬声器播放的左声道参考信号和右声道参考信号;三路音频信号经短时傅里叶变换得到三路频域信号,压缩形成频段能量信息,三路频段能量信息作为神经网络模型的输入,通过训练好的神经网络模型输出理想概率掩蔽IRM值;神经网络模型以设定的IRM值作为训练的目标;根据计算得到的IRM值及麦克风信号对应的频段信息能量值得到回声消除后的频域信息;频域信息经逆短时傅里叶变换得到时域信息,完成回声消除。本发明专利技术采用人工智能‑深度学习的方法取代传统复杂的立体声回声消除算法,实现语音通信中立体声的回声消除。

A method and system of stereo echo cancellation based on Neural Network

【技术实现步骤摘要】
一种基于神经网络的立体声回声消除方法及系统
本专利技术涉及实时通讯与语音识别
,特别涉及一种基于神经网络的立体声回声消除方法及系统。
技术介绍
在语音通信中,回声是影响通话质量的重要因素。回声现象是指说话者通过通信设备发送给其他人的语音又重新回到说话者自己的听筒里。回声对说话者产生严重的干扰,必须想办法消除。当近端用户的放音音量比较大而录音设备和放音设备距离比较近时,回声尤其明显。回声受近端用户环境的影响,可能产生多路回声,包括直接回声和反射回声,各个回声的路径不同,延迟也就不同,因而难以消除。图1中麦克风采集到的声音y(n)中包含有近端语音信号s(n)、扬声器左声道播放产生的回声dl(n)和右声道播放产生的回声dr(n);s^(n)表示经过回声消除后的干净语音。理想情况下是希望从麦克风传输到对端的声音只有干净的语音而不包含有回声,所以需要在传输之前对麦克风数据做回声消除处理。传统的回声消除依靠自适应滤波器来完成。自适应滤波器对输入信号x(n)的每一个样值,按特定的算法,更新、调整加权系数,使输出信号序列y(n)与期望输出信号序列d(n)相比较的均方误差为最小,即输出信号序列y(n)逼近期望信号序列d(n)。但是传统的回声消除存在开发难度高,收敛时间长,滤波器易发散、回音路径变化需要重新收敛等问题;另外,随着电话会议等新业务的兴起,人们不再满足于单调的低速率单声道话音,而立体声成为一个新的选择,则立体声回声消除也随之成为新的研究课题。但是立体声回声消除与单声道声学回声消除有着很大的区别。首先,立体声回声消除的计算复杂度是单声道的两倍,因为它还需要第二个回声消除器。其次,立体声的两个声道的高相关性会给补偿滤波器的自适应过程带来严重的问题。这都需要研究者采用新的思路和方法,开发难度较大,算法复杂度也较高。立体声回声抵消和单声道回声抵消有着本质的区别。第一、立体声的不同通道之间有着强相关性,这使得其相关矩阵是奇异的,因而没有唯一解;第二、立体声包含了远端房间的信息,因而如果远端房间的声学环境发生变化,如说话者的身体移动或者说话人变更都会使得回声路径改变从而导致自适应滤波器重新开始收敛,这就意味着自适应滤波器不仅要跟踪近端房间声学回声路径的变化而且还必须跟踪远端房间的发送信号产生路径的变化。针对立体声回声抵消算法的这些问题,目前人们主要从两个方面进行研究,一是对输入信号进行预处理,以消除通道之间的强相关性,主要方法有对各路信号进行非线性处理,对各路信号添加随机噪声,采用全通时变滤波器对输入信号处理等等;二是设计性能更佳的自适应滤波器,包括两路NLMS(NormalizedLeastMeanSquare)算法、两路AP(AffineProjection)算法、两路FRLS(FastRecursiveLeastSquare)算法、ELMS(ExtendedLMS)算法和NLMS-OCF(NormalizedLMSalgorithmwithorthogonalcorrectionfactors)算法。然而,现有的去相关算法并不是很有效,在对信号去相关的同时也带来了语音质量的下降;虽然有很多复杂的自适应滤波算法被开发出来,但由于远端信号之间的强相关性,自适应滤波算法收敛速度慢,对远端房间和近端房间回声路径的变化敏感,算法鲁棒性不好。传统的回声消除模型公式如下,麦克风信号y(n)包含了回声信号d(n),和近端信号s(n):y(n)=d(n)+s(n);回声的产生是扬声器信号在房间内产生冲激响应;这里可以将AEC(回声消除)问题描述为语音分离问题,而深度学习在分离问题中具有巨大的潜力,递归神经网络在时变函数上的建模能力非常有助于解决立体声的回声消除问题。因此,研发一种基于神经网络的立体声回声消除方法实为必要。
技术实现思路
本专利技术的目的在于提供一种基于神经网络的较低算法复杂度的立体声回声消除方法,其是采用人工智能-深度学习(神经网络模型)的方法取代传统复杂的立体声回声消除算法,实现语音通信中立体声的回声消除,并且在比较低的算法复杂度上能取得更好的消除效果。为了达到上述目的,本专利技术通过以下技术方案实现:一种基于神经网络的立体声回声消除方法,包含以下过程:输入三路音频信号,分别为麦克风信号、立体声扬声器播放的左声道参考信号和立体声扬声器播放的右声道参考信号;所述麦克风信号包含近端语音信号和远端信号,所述远端信号包含麦克风采集到的立体声扬声器播放的左声道回声信号与右声道回声信号;将所述三路音频信号经过变换以提取频域特征,得到三路频域信息;将所述三路频域信息经过压缩形成频段能量特征,得到三路频段能量信息;将所述三路频段能量信息作为神经网络模型的输入,通过预先训练好的神经网络模型,输出麦克风信号的频段能量信息对应的理想概率掩蔽值;基于神经网络模型输出的理想概率掩蔽值以及所述麦克风信号的频段能量信息,得到回声消除后的频段能量信息,并将所述回声消除后的频段能量信息解压计算得到回声消除后的频域信息;将所述回声消除后的频域信息经过变换得到相应的时域信息,完成立体声的回声消除;其中,在神经网络模型的预先模型训练阶段时,根据近端语音信号的频段能量与远端信号的频段能量,确定理想概率掩蔽值作为所述神经网络模型的训练的目标,且用于神经网络模型训练而制作的数据集中的训练数据包含采集的麦克风信号、立体声扬声器播放的左声道参考信号和立体声扬声器播放的右声道参考信号。优选地,所述神经网络模型的预先模型训练阶段时,麦克风信号记为y(n),近端语音信号记为s(n),麦克风采集到的立体声扬声器播放的左声道回声信号和右声道回声信号记为d(n),其中,y(n)=s(n)+d(n)。优选地,理想概率掩蔽值IRM等于对应近端语音信号的频段能量除以其与远端信号的频段能量之和的商的平方根。优选地,将三路频域信息经过划分的频段压缩形成频段能量特征,得到三路频段能量信息的过程中,压缩计算方式为:对划定的频段区间求频点能量的加权和,用来表示频段能量信息;所述频点能量等于该频点的模的平方,各频点能量的权重为对应频点在该频段区间的幅度,且在划定的频段区间内的权重和等于1;其中,将三路音频的频域信息按照一定的比例划分为N(0<N<k)个区间,k表示采样率对应的频率范围,形成频段。优选地,所述神经网络模型是包含M层的单向GRU或者双向的GRU(BGRU),其中,M≧2。优选地,所述神经网络模型包含依次连接的用于接收三路频段能量信息的一层输入层、用于计算理想概率掩蔽值的若干层隐藏层和用于输出麦克风信号的频段信息对应的理想概率掩蔽值的一层输出层;所述输入层的神经元节点的个数等于三路频段能量信息值的个数之和;所述输出层的神经元节点的个数等于麦克风信号的频段能量信息值的个数。优选地,所述回声消除后的频段能量信息等于神经网络模型输出的麦克风信号的每个频段能量信息值乘以对应的理想概率掩蔽值。优选地,所述三路音频信号经过傅里叶变换得到三路频域信息,所本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的立体声回声消除方法,其特征在于,包含以下过程:/n输入三路音频信号,分别为麦克风信号、立体声扬声器播放的左声道参考信号和立体声扬声器播放的右声道参考信号;所述麦克风信号包含近端语音信号和远端信号,所述远端信号包含麦克风采集到的立体声扬声器播放的左声道回声信号与右声道回声信号;/n将所述三路音频信号经过变换以提取频域特征,得到三路频域信息;/n将所述三路频域信息经过压缩形成频段能量特征,得到三路频段能量信息;/n将所述三路频段能量信息作为神经网络模型的输入,通过预先训练好的神经网络模型,输出麦克风信号的频段能量信息对应的理想概率掩蔽值;/n基于神经网络模型输出的理想概率掩蔽值以及所述麦克风信号的频段能量信息,得到回声消除后的频段能量信息,并将所述回声消除后的频段能量信息解压计算得到回声消除后的频域信息;/n将所述回声消除后的频域信息经过变换得到相应的时域信息,完成立体声的回声消除;/n其中,在神经网络模型的预先模型训练阶段时,根据近端语音信号的频段能量与远端信号的频段能量,确定理想概率掩蔽值作为所述神经网络模型的训练的目标,且用于神经网络模型训练而制作的数据集中的训练数据包含采集的麦克风信号、立体声扬声器播放的左声道参考信号和立体声扬声器播放的右声道参考信号。/n...

【技术特征摘要】
1.一种基于神经网络的立体声回声消除方法,其特征在于,包含以下过程:
输入三路音频信号,分别为麦克风信号、立体声扬声器播放的左声道参考信号和立体声扬声器播放的右声道参考信号;所述麦克风信号包含近端语音信号和远端信号,所述远端信号包含麦克风采集到的立体声扬声器播放的左声道回声信号与右声道回声信号;
将所述三路音频信号经过变换以提取频域特征,得到三路频域信息;
将所述三路频域信息经过压缩形成频段能量特征,得到三路频段能量信息;
将所述三路频段能量信息作为神经网络模型的输入,通过预先训练好的神经网络模型,输出麦克风信号的频段能量信息对应的理想概率掩蔽值;
基于神经网络模型输出的理想概率掩蔽值以及所述麦克风信号的频段能量信息,得到回声消除后的频段能量信息,并将所述回声消除后的频段能量信息解压计算得到回声消除后的频域信息;
将所述回声消除后的频域信息经过变换得到相应的时域信息,完成立体声的回声消除;
其中,在神经网络模型的预先模型训练阶段时,根据近端语音信号的频段能量与远端信号的频段能量,确定理想概率掩蔽值作为所述神经网络模型的训练的目标,且用于神经网络模型训练而制作的数据集中的训练数据包含采集的麦克风信号、立体声扬声器播放的左声道参考信号和立体声扬声器播放的右声道参考信号。


2.如权利要求1所述的立体声回声消除方法,其特征在于,
所述神经网络模型的预先模型训练阶段时,麦克风信号记为y(n),近端语音信号记为s(n),远端信号记为d(n),其中,y(n)=s(n)+d(n)。


3.如权利要求1所述的立体声回声消除方法,其特征在于,
理想概率掩蔽值IRM等于对应近端语音信号的频段能量除以其与远端信号的频段能量之和的商的平方根。


4.如权利要求1所述的立体声回声消除方法,其特征在于,
将三路频域信息经过划分的频段压缩形成频段能量特征,得到三路频段能量信息的过程中,压缩计算方式为:对划定的频段区间求频点能量的加权和,用来表示频段能量信息;所述频点能量等于该频点的模的平方,各频点能量的权重为对应频点在该频段区间的幅度,且在划定的频段区间内的权重和等于1;
其中,将三路频域信息按照一定的比例划分为N(0<N<k)个区间,k表示采样率对应的频率范围,形成频段。


5.如权利要求1~4中任意一项所述的立体声回声消除方法,其特征在于,
所述神经网络模型是包含M层的单向GRU或者双向的GRU,其中,M≧2。


6.如权利要求5所述的立体声回声消除方法,其特征在于,
所述神经网络模型包含依次...

【专利技术属性】
技术研发人员:马崇泽王照钢徐栋麟
申请(专利权)人:上海亮牛半导体科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1