一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统技术方案

技术编号:22657893 阅读:33 留言:0更新日期:2019-11-28 02:57
本发明专利技术提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。

A spatial direction estimation method and system of binaural auditory sound source based on multi task time-frequency convolution neural network

The invention provides a spatial direction estimation method and system of binaural sound source based on multi task time-frequency convolution neural network. This method first extracts the time-frequency binaural feature cues of the binaural signal in consecutive frames as the input of the neural network; then, the input time-frequency binaural feature cues are modeled and fused by using the time-frequency convolution neural network, and the shared features that can be used to estimate the turn angle and pitch angle of the sound source at the same time are output; finally, based on the shared features, the turn angle of the sound source is estimated by using the multitask neural network And pitch angle for learning and estimation. This method is robust to unknown noises. The time-frequency convolution neural network can effectively learn the time-frequency information of the binaural features and effectively fuse the binaural cues. The multitask neural network can effectively combine and enhance the estimation of the sound source turning angle and pitch angle. The advantage of this method is that it provides an effective way to locate the sound source in the complex noise scene.

【技术实现步骤摘要】
一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统
本专利技术属于机器人双耳听觉信号处理领域,具体涉及一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。
技术介绍
声源定位是实现自然、友好人机交互的一项关键技术,通过定位出外界声源相对于机器人的方位,可以让机器人像人一样判别出声音的源头,提高机器人与外界交互的能力。基于双耳听觉的声源定位是声源定位技术发展的一个重要分支。该技术充分利用了双麦克风的易搭载性及耳廓的滤波特性,不仅拥有双麦克风简易的阵列结构,又结合了人耳听觉特性,从结构上可克服双麦克风定位的前后向歧义性。该技术有着广泛的实际应用,如智能监控、人机交互、助听器语音增强、视频会议、虚拟现实等。基于双耳听觉的声源定位研究起始于一百年前,最早开始是研究人体心理感官对不同方向声音处理方式,所以最早应属于声学或者心理学范畴。学者Rayleigh在大量试验的基础上提出了“双元学说理论”,并认为双耳时间差和双耳能量差是声源定位的至关重要的定位线索。上世纪80年代,Lyon提出了一个双耳定位的计算模型,即耳廓模型(cochlearmodel),为基于双耳麦克风的声音定位开启了一个新的视角。1992年,随着对人耳的几何形状和对双耳定位影响研究的不断深入,头相关传递函数(Head-relatedTransferFunction,HRTF)概念被提出,耳廓、头部、耳道、肩膀和躯体等因素都会影响HRTF。同时,谱线索被认为是头相关传递函数HRTF表达声源位置的一个重要因素。从此,基于头相关传递函数的双耳定位方法成为主流,而测量HRTF是机器人学习声学环境的难点和核心,因为HRTF代表了声源到机器人声学传感器这个复杂系统的系统传递函数,从中可以提取出表征声源方位的从声源传播到双耳的时延和能量信息。近年来,针对头相关传递函数HRTF模拟声源到麦克风传播过程的幅度和时间变化特性,许多基于HRTF特征的双耳定位方法被提出应用于声源定位中。目前,国内外主流研究机构包括法国国家信息与自动化研究所、伦敦玛丽王后大学智能传感中心、北京大学、中国科学院、清华大学等。为了提升基于双耳麦克风的声源定位算法在不同机器人听觉系统上的适应性,同时在不同机器人平台上易于搭载并且实现实时的声源定位,机器人的双耳麦克风系统需要尽量模拟人耳生理结构,其麦克风间距也需符合大量生物统计得到的双耳平均尺寸、耳廓拓扑结构尽量规则且严格对称。由于双耳声源定位只利用两个麦克风的信息,相比于基于麦克风阵列的声源定位,定位的算法复杂度可以有效降低从而保证定位系统的实时性。然而,双耳声源定位可利用的麦克风信号信息相对较少,实现鲁棒精确的定位具有一定的挑战。为了提高双耳声源定位线索提取的精确度和鲁棒性,双耳麦克风需要精确的拓扑结构,同时也可以提高机器人的类人性。同时,在真实的人机交互场景中,周围环境的噪声会给机器人的声源定位性能带来很大的挑战,这对双耳声源定位的实用化提出了要求。
技术实现思路
本专利技术针对复杂噪声场景下的声源空间方向估计,提出了一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统。本专利技术采用的技术方案如下:一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,包括以下步骤:1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出能够用于同时估计声源转向角和俯仰角的共享特征;3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。进一步地,步骤1)所述时频双耳特征线索包括双耳相位差和双耳能量差。通过对双耳信号进行傅里叶变换变换到频域,然后对每一个频带的双耳信号的相位和幅度求差异,以提取双耳相位差和双耳能量差。将一个固定时间段内多帧的双耳相位差和双耳能量差放在一起构成时频双耳特征线索,作为声源定位神经网络的输入。进一步地,步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模,所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层,线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。进一步地,步骤3)所述多任务神经网络是通过结合转向角和俯仰角估计的代价函数来训练得到的。训练完成后,对于给定的时频双耳特征线索,该多任务神经网络可估计出每个候选空间方向上的后验概率,拥有最大后验概率的候选空间方向则被判别为最终的声源空间方向,即声源转向角和俯仰角。基于同一专利技术构思,本专利技术还提供一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统,其包括:双耳特征线索提取模块,用于提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;双耳特征线索融合模块,用于利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;声源空间方向估计模块,用于基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。基于同一专利技术构思,本专利技术还提供一种计算机,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本专利技术的方法的各步骤的指令。本专利技术的有益效果如下:本专利技术使用时频卷积神经网络学习输入特征的时频信息实现了对噪声干扰双耳定位特征的鲁棒建模,同时有效地融合了双耳相位差和双耳能量差信息用于空间方向(即转向角和俯仰角)的估计;使用时频卷积神经网络实现了在不同类型与信噪比的空间不相关噪声和扩散噪声影响下鲁棒的声源空间方向估计,该网络对未知类型噪声干扰下的声源定位也是有效的;利用多任务学习共享特征提升并增强了对声源转向角和俯仰角的定位,提升了对声源空间方向估计的效率。附图说明图1.本专利技术方法的总体流程图。图2.双耳相位差和双耳能量差相对于不同俯仰角的分布。图3.时频卷积神经网络结构。图4.用于转向角和俯仰角估计的多任务神经网络结构。具体实施方式为更加清楚、完整地描述本专利技术方法,下面将结合本专利技术具体实施例和附图,对本专利技术做进一步说明。参考图1,是本专利技术方法地流程图,主要包括以下几个步骤:步骤1:时频双耳特征线索提取从双耳信号直接提取双耳相位差和双耳能量差作为定位线索。采用短时傅里叶变换将双耳麦克风信号变换到频域,得到时频域双耳信号:Xi(κ,ω)=S(κ,ω)Hi(ω)+Vi(κ,ω)其中,i∈{r,l}表示双耳信号索引,r表示右耳,l表示左耳;Xi,S和Vi分别表示双耳麦克风信号、声源信号和噪声信号的短时傅里叶变换,Hi表示双耳麦克风通道的头相关传递函数,κ表示音频帧索引,ω表示频带索引。依据时频域双耳信号,第κ帧第ω频带的双耳相位差可表本文档来自技高网
...

【技术保护点】
1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,其步骤包括:/n1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;/n2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;/n3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。/n

【技术特征摘要】
1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,其步骤包括:
1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。


2.如权利要求1所述的方法,其特征在于,步骤1)在时频域提取双耳相位差和双耳能量差作为时频双耳特征线索。


3.如权利要求1所述的方法,其特征在于,步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模,所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层,线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。


4.如权利要求3所述的方法,其特征在于,输入的时频双耳特征线索首先经过第一个二维卷积层的处理;然后,一个批标准化层通过归一化第一个二维卷积层输出的特征提升网络的稳定性;在对特征进行批标准化处理后,第二个二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索;接下来,处理后的特征通过第三个二维卷积层以及其后的批标准化层、第四个二维卷积层以及其后的批标准化层,进行两次相同的二维卷积和批标准化处理;ReLU激活函数在每一次批标准化操作后进行;最后,一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。


5.如权利要求4所述的方法,其特征在于,所述第一个二维卷积层的卷积核大小为5×5,步幅为3,滤波器数量为32;所述第二个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为64;所述第三个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为96;所述第四个二维卷积层的卷积核大小...

【专利技术属性】
技术研发人员:刘宏庞程丁润伟杨冰袁佩佩
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1