一种基于卷积神经网络CNN的声源定位算法制造技术

技术编号:17303475 阅读:128 留言:0更新日期:2018-02-18 20:37
本发明专利技术提供了一种基于卷积神经网络CNN的声源定位算法。该方法通过引入鉴别互相关函数的特征,利用Roomsim的仿真环境以及两个麦克风所接收的信号,得到在带有混响和噪声环境下的互相关函数,并分帧截取得到训练集和测试集,对该特征进行训练得到卷积神经网络,即CNN模型,训练过程中,采用ReLU函数作为激活函数,并将测试集在该模型下进行声源定位估计,最后采用贝叶斯决策来构建判决式决定测试样本的类别,使得得条件概率p(rs|Y)最大的位置即为估计出声源的真实位置。这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。

An acoustic source localization algorithm based on convolution neural network CNN

The invention provides an acoustic source localization algorithm based on the convolution neural network CNN. By this method, introduce the characteristics of differential cross-correlation function of the received signal using the Roomsim simulation environment and two microphones, get in with the cross-correlation function of reverberation and noise environment, and interception by the training set and test set, the characteristics of the training convolutional neural network, CNN model, training in the process of using the ReLU function as the activation function, and the test set for sound source localization estimation in this model, finally using Bayesian decision to construct discriminatorfor decided to test the sample type, make the conditional probability p (rs|Y) the maximum position is to estimate the true position of sound source. The implementation of this algorithm effectively solves the problem of noise and reverberation in the traditional sound source location.

【技术实现步骤摘要】
一种基于卷积神经网络CNN的声源定位算法
本专利技术涉及一种基于神经网络CNN的声源定位算法研究,属于信息

技术介绍
对于声源定位算法来说,如何提高抗噪声和抗混响能力是长久以来的研究重心,在实际的环境下,当信噪比很小、混响严重的情况下,基于传统算法的改进措施很难有明显的效果。此外当麦克风无法接收到声源的直达声时,也难以定位。本专利技术提出使用卷积神经网络CNN鉴别相位变换加权广义互相关函数(GCC-PHAT)来进行声源定位。实验表明,卷积神经网络CNN在低信噪比和严重混响环境下有更出色的定位性能。卷积神经网络CNN是一种前馈神经网络,是受生物学上感受野的机制而提出的,CNN以其局部连接,局部权值共享的结构特性在语音识别和图像处理方面有着独特的优越性。其思想是CNN由一组或多组卷积层和采样层构成,一个卷积层中包含若干个不同的卷积器,这些卷积器对语音的各个局部特征进行观察。采样层通过对卷积层的输出结点做固定窗长的采样,减少下一层的输入结点数,从而控制模型的复杂度。一般采样层采用最大采样算法,即对固定窗长内的结点选取最大值进行输出。对于一维卷积神经网络,在采用卷积来代替全连接的卷积神经网络中,第l层的每一个神经元都只和l-1层的一个局部窗口内的神经元相连,构成一个局部连接网络。第l层的第i个神经元的输入定义为:上述公式也可以写为:其中,f(x)为激活函数,本专利技术激活函数采用ReLU函数,为l-1层神经元输出的加权偏置,为m维的滤波器,为其权值,为神经元输入,b(l)为偏置,的下标从1开始,表示卷积运算。从公式(1.2)可以看出,w(l)对于所有的神经元都是相同的。这也是卷积层的权值共享特性。在卷积层里,我们只需要m+1个参数。此外,在互相关函数特征的选取中,本专利技术利用Roomsim工具包模拟出在带有混响和噪声的室内环境,通过两个不同位置的麦克风接收信号x1(t)和x2(t)之间的广义互相关函数(GCC)可以在频域计算:式中,上标“*”表示复共轭,X1(ω)、X2(ω)分别是x1(t)、x2(t)的傅里叶变换,Ψ1,2(ω)为加权函数。为了增强互相关函数的抗混响能力,可以使用相位变化(PHAT)加权函数:将式(1.4)代入式(1.3),得到:在实际情况中,麦克风接收信号x1(t)和x2(t)经过加窗后,再由傅里叶变换求得X1(ω)和X2(ω)。如果房间脉冲响应的长度L比窗函数的长度短很多,则麦克风接收信号在频域可以表示为:Xn(ω)=Hn(rs,ω)S(ω),n=1,2,(1.6)式中,rs为声源位置,s(t)为在rs处的声源信号,声源到第n个麦克风的房间脉冲响应为hn(rs,t),L为房间脉冲响应的长度。S(w)和Hn(rs,t)分别是s(t)和hn(rs,t)的傅里叶变换。将式(1.6)代入式(1.5),得到:由式(1.7)可知,麦克风阵接收信号x1(t)和x2(t)之间的GCC等于房间脉冲响应h1(rs,t)和h2(rs,t)之间的GCC。然而,在实际情况中房间脉冲响应的长度L比窗函数的长度大很多,则麦克风信号在频域只能近似表示为:Xn(ω)≈Hn(rs,ω)S(ω),n=1,2,(1.8)而且,麦克风阵接收信号x1(t)和x2(t)之间的GCC只能近似等于房间脉冲响应h1(rs,t)和h2(rs,t)之间的GCC,即:当计算出长度取K帧的GCC-PHAT得到则特征数据集Y可由下式截取:其中round()为取整函数,Dij为第i个麦克风第j个麦克风之间的距离,fs为采样频率,c为声速,为了获得GCC-PHAT谱线上所有可能取得谱峰的时延点的数据,从而转化为特征数据集,因子α设为1.67。由式(1.10)可见,对于每一帧信号的互相关函数其维度为2τmax+1。最后,可取得的由K帧数据形成的维度为(2τmax+1)×K的特征向量Y表示为:Y=[y1,y2,...,yk-1,yk]T(1.11)由此可以得到互相关函数的特征。
技术实现思路
针对在噪声和混响严重的情况下,提高声音信号抗噪声和抗混响能力,本专利技术提供了一种基于卷积神经网络CNN的声源定位算法。该方法通过引入鉴别互相关函数的特征,利用Roomsim的仿真环境以及两个麦克风所接收的信号,得到在带有混响和噪声环境下的互相关函数,并分帧截取得到训练集和测试集,对该特征进行训练得到卷积神经网络,即CNN模型,训练过程中,采用ReLU函数作为激活函数,并将测试集在该模型下进行声源定位估计,最后采用贝叶斯决策来构建判决式决定测试样本的类别,使得得条件概率p(rs|Y)最大的位置即为估计出声源的真实位置。这种算法的实现,有效地解决了传统声源定位中噪声和混响的问题。本专利技术解决其技术问题所采取的技术方案是:一种基于卷积神经网络CNN的声源定位算法。该技术方案步骤如下:步骤1:利用Roomsim工具包模拟出在带有混响和噪声的室内环境,根据两个麦克风接收到的信号x1(t)和x2(t),计算出麦克风接收信号的互相关函数再进行分帧截取及特征提取,得到训练集,为下一步的模型训练做准备。特征提取具体步骤如下:步骤1.1:声源位于训练位置rs,s=1,2,...,k,麦克风阵记录下声源在该位置处发出的信号s(t);步骤1.2:根据房间脉冲响应和声源信号计算得到麦克风接收到的混响信号x1(t)和x2(t);步骤1.3:根据麦克风接收到的混响信号x1(t)和x2(t),经过预处理后,计算相位变换加权广义互相关函数步骤1.4:对进行分帧截取,得到训练集Y;步骤2:将互相关函数特征作为输入,按照一维CNN进行模型训练,训练过程中,激活函数采用ReLU函数,其数学表达式为:f(x)=max(0,x)(1.12)步骤3:计算出CNN模型参数后,即完成模型训练后,利用和生产训练数据一样的方法得到测试数据Y',将其输入CNN模型后,利用贝叶斯决策来构建判决式决定测试样本的类别,即利用高斯概率模型对类条件概率密度P(z|Ck)建模,然后根据贝叶斯决策最大化正确分类率:其中Rk表示决策域,即在决策域Rk内的样本都属于Ck类,此时只需要根据贝叶斯定理p(z,Ck)=p(Ck|z)p(z),而p(z)对于所有项是相同的,所以只要找出后验概率p(Ck|z)最大的类别即为样本z所属的类别,即声源的方位。有益效果:1、本专利技术将声源的互相关函数的特征信息和CNN模型结合起来,适用于有强噪声和混响的声源定位。2、本专利技术通过对声源的互相关函数特征的提取,数据采集方便简单,定位效果也较好。附图说明图1为本专利技术的方法流程图。图2为本专利技术在不同噪声和混响情况下的定位精度示意图(T60=300ms)。图3为本专利技术在不同噪声和混响情况下的定位精度示意图(T60=600ms)。具体实施方式下面结合说明书附图对本专利技术创造作进一步的详细说明。如图1所示,一种基于卷积神经网络CNN的声源定位算法,包括以下内容:步骤1:利用Roomsim工具包模拟出在带有混响和噪声的室内环境,根据两个麦克风接收到的信号x1(t)和x2(t),计算出麦克风接收信号的互相关函数再进行分帧截取及特征提取,得到训练集,为下一步的模型训练做准备。特征提取具体步骤如下:步骤1.1:声源位于训练位置rs,s=1,2,...,k,麦克风阵记录下声源在该位置本文档来自技高网
...
一种基于卷积神经网络CNN的声源定位算法

【技术保护点】
一种基于卷积神经网络CNN的声源定位算法,其特征在于,包括以下步骤:步骤1:利用Roomsim工具包模拟出在带有混响和噪声的室内环境,根据两个麦克风接收到的信号x1(t)和x2(t),计算出麦克风接收信号的互相关函数

【技术特征摘要】
1.一种基于卷积神经网络CNN的声源定位算法,其特征在于,包括以下步骤:步骤1:利用Roomsim工具包模拟出在带有混响和噪声的室内环境,根据两个麦克风接收到的信号x1(t)和x2(t),计算出麦克风接收信号的互相关函数再进行分帧截取及特征提取,得到训练集,为下一步的模型训练做准备。步骤2:将互相关函数特征作为输入,按照一维CNN进行模型训练,训练过程中,激活函数采用ReLU函数,其数学表达式为:f(x)=max(0,x)(1.12)步骤3:计算出CNN模型参数后,即完成模型训练后,利用和生产训练数据一样的方法得到测试数据Y',将其输入CNN模型后,利用贝叶斯决策来构建判决式决定测试样本的类别,即利用高斯概率模型对类条件概率密度P(z|Ck)建模,然后根据贝叶斯决策最大化正确分类率:

【专利技术属性】
技术研发人员:万新旺王吉廖鹏程陈中倩
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1