The invention discloses a binaural sound source location method based on convolution neural network, calculates the cross-correlation function of binaural sound signals in the subband, composes two-dimensional data as characteristic parameters, trains the convolution neural network, and obtains the convolution neural network classifier; calculates the cross-correlation function of the tested binaural sound signals as two-dimensional characteristic parameters in the testing process, and uses the trained binaural sound signals as two-dimensional characteristic parameters. The convolutional neural network classifier estimates the azimuth information corresponding to each binaural signal. The experimental results in different acoustic environments show that the binaural sound source localization method based on convolution neural network has good robustness, especially in the case of high noise and strong reverberation, which significantly improves the localization accuracy, and is superior to the classical algorithm in the prior art.
【技术实现步骤摘要】
一种基于卷积神经网络的双耳声源定位方法
本专利技术属于声源定位
,涉及一种基于卷积神经网络的双耳声源定位方法。
技术介绍
声源定位算法是语音信号处理的重要研究方向,也有比较广泛的应用场合。如视频会议系统中,声源定位技术可实现摄像头实时对准发言人;声源定位技术应用于语音识别的前期处理过程可以改善语音的质量,帮助提高识别的正确率;应用于助听装置时,可为听力障碍者提供声源位置信息,并提供有效语音信息。声源定位技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用双耳信号的差异进行分析从而估计声源方位,目前的定位算法根据其定位参数的区别可以分为两类,但均存在缺陷:1、基于耳间差的定位LordRayleigh于1907年在球形人头假设之上,首次提出基于耳间线索差的定位理论,即由于声源与人的双耳位置之间的位置差异,使得双耳接收到的声信号存在时间和强度差异,即耳间时间差(Inter-auralTimeDifference,ITD)和耳间强度差(Inter-auralIntensityDifference,IID),这两方面因素差异 ...
【技术保护点】
1.一种基于卷积神经网络的双耳声源定位方法,其特征在于,包括以下步骤:(1)将训练单声道声信号与不同方位角、不同混响时间的双耳房间脉冲响应函数进行卷积,并加入不同信噪比的白噪声,得到不同声学环境下不同方位角对应的训练双耳声信号;(2)对步骤(1)得到的训练双耳声信号进行子带滤波、分帧和加窗,得到各个子带分帧后的训练双耳声信号;(3)对于步骤(2)得到的各个子带分帧后的训练双耳声信号,计算每一帧双耳声信号的互相关函数CCF,从而得到训练双耳声信号各个子带对应的多帧CCF;(4)对于步骤(3)得到的各个子带对应的多帧CCF,将同一帧中不同子带的CCF函数组成一个矩阵,作为每一帧 ...
【技术特征摘要】
1.一种基于卷积神经网络的双耳声源定位方法,其特征在于,包括以下步骤:(1)将训练单声道声信号与不同方位角、不同混响时间的双耳房间脉冲响应函数进行卷积,并加入不同信噪比的白噪声,得到不同声学环境下不同方位角对应的训练双耳声信号;(2)对步骤(1)得到的训练双耳声信号进行子带滤波、分帧和加窗,得到各个子带分帧后的训练双耳声信号;(3)对于步骤(2)得到的各个子带分帧后的训练双耳声信号,计算每一帧双耳声信号的互相关函数CCF,从而得到训练双耳声信号各个子带对应的多帧CCF;(4)对于步骤(3)得到的各个子带对应的多帧CCF,将同一帧中不同子带的CCF函数组成一个矩阵,作为每一帧双耳声信号对应的二维特征参数;(5)对于步骤(4)得到的每一帧二维特征参数,将其作为卷积神经网络的输入层参数,将方位角作为卷积神经网络的输出参数,基于前向传播和反向传播算法训练卷积神经网络;(6)对不同方位角、不同声学环境下的测试双耳声信号进行子带滤波、分帧和加窗,得到各个子带分帧后的测试双耳声信号;(7)对于步骤(6)得到的各个子带分帧后的测试双耳声信号,计算每一帧双耳声信号的互相关函数CCF,从而得到测试双耳声信号各个子带对应的多帧CCF;(8)对于步骤(7)得到的各个子带对应的多帧CCF,将同一帧中不同子带的CCF函数组成一个矩阵,作为每一帧双耳声信号对应的二维特征参数;(9)将步骤(8)得到的每一帧二维特征参数作为步骤(5)训练后得到的卷积神经网络的输入特征,估计得到每一帧测试双耳声信号的方位角。2.根据权利要求1所述的基于卷积神经网络的双耳声源定位方法,其特征在于,所述步骤(1)中的不同声学环境下的训练双耳声信号的计算公式为:xL(m)=s(m)*hL(m)+vL(m)xR(m)=s(m)*hR(m)+vR(m)式中,xL(m)、xR(m)分别表示加入混响和噪声后的左、右耳声信号,s(m)为单声道源信号,hL(m)、hR(m)为不同混响时间对应的双耳房间冲激响应函数,vL(m)、vR(m)表示指定信噪比下的左、右耳白噪声信号,m表示样本点序号,*为卷积运算。3.根据权利要求1所述的基于卷积神经网络的双耳声源定位方法,其特征在于,所述步骤(2)和步骤(6)中的子带滤波、分帧、加窗方法具体包括如下步骤:子带滤波:对于左、右耳声信号xL(m)、xR(m),分别利用滤波器组进行子带滤波,得到各个子带的双耳声信号,计算公式如下:xL(i,m)=xL(m)*gi(m)xR(i,m)=xR(m)*gi(m)其中,xL(i,m)、xR(i,m)分别为滤波后的第i个子带的左、右耳声信号,gi(m)为子带滤波器的时域冲激响应函数;分帧、加窗:采用预设分帧长度和帧移,将每个子带的左、右耳声信号划分为多个单帧,信...
【专利技术属性】
技术研发人员:周琳,马康宇,陈俐源,林震宇,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。