The invention provides a spatial direction estimation method and system of binaural sound source based on multi task time-frequency convolution neural network. This method first extracts the time-frequency binaural feature cues of the binaural signal in consecutive frames as the input of the neural network; then, the input time-frequency binaural feature cues are modeled and fused by using the time-frequency convolution neural network, and the shared features that can be used to estimate the turn angle and pitch angle of the sound source at the same time are output; finally, based on the shared features, the turn angle of the sound source is estimated by using the multitask neural network And pitch angle for learning and estimation. This method is robust to unknown noises. The time-frequency convolution neural network can effectively learn the time-frequency information of the binaural features and effectively fuse the binaural cues. The multitask neural network can effectively combine and enhance the estimation of the sound source turning angle and pitch angle. The advantage of this method is that it provides an effective way to locate the sound source in the complex noise scene.
【技术实现步骤摘要】
一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统
本专利技术属于机器人双耳听觉信号处理领域,具体涉及一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。
技术介绍
声源定位是实现自然、友好人机交互的一项关键技术,通过定位出外界声源相对于机器人的方位,可以让机器人像人一样判别出声音的源头,提高机器人与外界交互的能力。基于双耳听觉的声源定位是声源定位技术发展的一个重要分支。该技术充分利用了双麦克风的易搭载性及耳廓的滤波特性,不仅拥有双麦克风简易的阵列结构,又结合了人耳听觉特性,从结构上可克服双麦克风定位的前后向歧义性。该技术有着广泛的实际应用,如智能监控、人机交互、助听器语音增强、视频会议、虚拟现实等。基于双耳听觉的声源定位研究起始于一百年前,最早开始是研究人体心理感官对不同方向声音处理方式,所以最早应属于声学或者心理学范畴。学者Rayleigh在大量试验的基础上提出了“双元学说理论”,并认为双耳时间差和双耳能量差是声源定位的至关重要的定位线索。上世纪80年代,Lyon提出了一个双耳定位的计算模型,即耳廓模型(cochlearmodel),为基于双耳麦克风的声音定位开启了一个新的视角。1992年,随着对人耳的几何形状和对双耳定位影响研究的不断深入,头相关传递函数(Head-relatedTransferFunction,HRTF)概念被提出,耳廓、头部、耳道、肩膀和躯体等因素都会影响HRTF。同时,谱线索被认为是头相关传递函数HRTF表达声源位置的一个重要因素。从此,基于头相 ...
【技术保护点】
1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,其步骤包括:/n1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;/n2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;/n3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。/n
【技术特征摘要】
1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,其步骤包括:
1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
2.如权利要求1所述的方法,其特征在于,步骤1)在时频域提取双耳相位差和双耳能量差作为时频双耳特征线索。
3.如权利要求1所述的方法,其特征在于,步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模,所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层,线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。
4.如权利要求3所述的方法,其特征在于,输入的时频双耳特征线索首先经过第一个二维卷积层的处理;然后,一个批标准化层通过归一化第一个二维卷积层输出的特征提升网络的稳定性;在对特征进行批标准化处理后,第二个二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索;接下来,处理后的特征通过第三个二维卷积层以及其后的批标准化层、第四个二维卷积层以及其后的批标准化层,进行两次相同的二维卷积和批标准化处理;ReLU激活函数在每一次批标准化操作后进行;最后,一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。
5.如权利要求4所述的方法,其特征在于,所述第一个二维卷积层的卷积核大小为5×5,步幅为3,滤波器数量为32;所述第二个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为64;所述第三个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为96;所述第四个二维卷积层的卷积核大小...
【专利技术属性】
技术研发人员:刘宏,庞程,丁润伟,杨冰,袁佩佩,
申请(专利权)人:北京大学深圳研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。