基于分频和深度神经网络的声源定位方法技术

技术编号:19141322 阅读:23 留言:0更新日期:2018-10-13 08:50
本发明专利技术请求保护一种混响和噪声环境下基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位方法,涉及声源定位领域。该方法首先双耳信号通过Gammatone滤波器后得到分频的子带信号,在每个子带信号中进行最小相位分解的去混响处理,从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross‑Correlation Function,GCCF)。该方法将双耳语音定位视为一个多分类的问题,将GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定位特征,输入到顶层为softmax回归结构的DNNs,输出声源处于每个方位的概率,取最大概率方位角为声源位置。

Sound source localization based on frequency and depth neural network

The invention requests protection of a sound source localization method based on frequency division and depth neural networks (DNNs) in reverberation and noise environments, and relates to the field of sound source localization. Firstly, the binaural signal passes through the Gammatone filter to get the frequency-division sub-band signal. In each sub-band signal, the minimum phase decomposition is used to remove the reverberation. The generalized cross-correlation function (GCCF) is obtained by inverse transform from the cepstrum domain to the time domain. This method regards binaural speech localization as a multi-classification problem. GCCF and Interaural Level Differences (ILDs) are used as localization features and input to DNNs with soft Max regression structure at the top. The probability that the output sound source is in each direction is taken as the maximum probabilistic azimuth.

【技术实现步骤摘要】
基于分频和深度神经网络的声源定位方法
本专利技术属于声源定位领域,特别是一种基于分频和深度神经网络的声源定位方法。
技术介绍
声源定位技术的内容涉及了模式识别、信号处理、语言科学、计算机技术、生理学、心理学、神经网络以及人工智能技术等多种学科,其应用领域非常广泛,包括移动通信、移动机器人、视频会议、银行安全系统、海关、公共场所监视、医学、人机交互等。例如,在军事方面,声源定位技术可以为雷达提供一个很好的补充,不需要发射信号,仅靠接收信号就可以判断目标的位置,因此,在定位的过程中就不会受到干扰和攻击。在视频会议中,说话人跟踪可为摄像机转向控制与语音拾取提供位置信息,使传播的图像和声音更清晰。声源定位技术因为其诸多优点以及在应用上的广泛前景成为一个研究热点。伴随着科技地不断进步,研究者对于说话人的定位技术也不断地更新着,主要可以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。经过几十年的发展与研究,如今的视频定位技术已经非常成熟,其可以在实现目标的定位与跟踪等功能。然而声源定位技术却更能引起众多研究者的重视,这主要由于声源定位技术有着独特的优势。第一,隐蔽性。声源定位技术只需要利用麦克风来接收声音信号,而不必向外界发送任何东西,这一点使得声源定位技术在不改变周围环境下能够轻松得到外界目标声音的信息,而自己本身的位置却很难被外界所发现。正是声源定位技术的隐蔽性,很多潜水艇在作战中不会轻易打开声呐等设备,而会使用声源定位技术来追踪目标的位置。第二,实用性。声音是属于声波,声波在传输中不会受到电磁场、光线强弱等的干扰与限制。光线强度弱的环境对于视频定位技术影响很大,存在障碍物的环境对电磁波有一定干扰。如在深海中由于光线很弱,视频定位技术就不能使用,而激光与电磁波在深海中能量的衰减会快速导致穿透距离很短。然而这种情况下声源定位技术却不会受限制于深海环境中,可以很好的实现目标声源的定位。第三,易实现。声源定位技术相比于其他几种定位技术,在成本上与设备上的要求就低很多了,因此声源定位技术在生活中容易得到应用。在现实生活中,人们的谈话场景通常存在多个声源、背景噪声以及混响,但是人耳听觉系统能够有效地识别和定位出感兴趣的声源信号,这种现象被称为“鸡尾酒效应”。这种现象经常出现在鸡尾酒会上,两个客人可以在说话的一群人的旁边正常的交流,听者还可以根据感兴趣的语音信号判断出目标声源的方向,比如听者在听到有人叫唤他的名字时会将头转向说话者。由此可以看出,人耳听觉系统可以从嘈杂的多声源环境中定位出目标声源的方向。声源定位技术起源于人们对于人耳听觉特性的研究,因此它通过模拟人耳听觉系统实现对声源方向的定位功能。声源定位的广适性使其应用于多个领域,在声学通信、人工智能和助听器等方面有着重要的研究意义和实用价值。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种在混响和噪声环境下提高声源定位的准确度的基于分频和深度神经网络的声源定位方法。本专利技术的技术方案如下:一种基于分频和深度神经网络的声源定位方法,其包括以下步骤:S11、首先获取纯净的语音信号,再通过卷积双耳房间脉冲响应BRIR来构建带混响的双耳信号,再加入噪声;S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理,首先使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号,在每个子带信号上进行倒谱域去混响(即将信号变换到倒谱域,再进行去混响)处理,获得去混响的左右耳各子带信号;S13:对步骤S12得到的去混响的左右耳各子带信号进行特征提取,选择GCCF和双耳水平差作为双耳定位特征;S14:将步骤S13得到的定位特征,输入到顶层为softmax回归结构的DNNs(深度神经网络),输出声源处于每个方位的概率,取最大概率方位角为声源位置。进一步的,所述BRIR是房间脉冲响应RIR卷积头部脉冲响应HRIR得来的,其中HRIR是HRTF头部相关传输函数的时域表示。进一步的,所述步骤S13针对每个频带独立地计算右耳信号和左耳信号之间的互相关,选择广义互相关函数GCCF,其中加权函数为相位加权ILD对应着左右耳信号之间的能量比,单位为Db,ITD双耳时间差和ILD在不同频率范围的作用是不同的,当声音频率小于1500Hz时,ITD在双耳声源定位中起到主要作用;当声音频率大于1500Hz时,相对ITD,ILD是声源定位线索中的主要部分,ILD也会作为定位特征,最后选择GCCF和双耳水平差作为定位特征。进一步的,所述步骤S12采用一组gammatone滤波器来模拟耳蜗的分频特性,从而对声源信号进行分频处理具体包括:双耳信号经过gammatone滤波器组进行分频,将语音信号分为子带信号。选择临界频带的中心频率作为Gammatone滤波器的中心频率,在得到子带信号之后,在子带信号每帧上加入指数窗使其变为最小相位信号,然后进行倒谱计算并分解出最小相位分量,获得估计的混响分量,再将子带信号滤除混响分量,反变换到时域,加上逆指数窗,得到去混子带信号。进一步的,所述滤波器的阶数为4。进一步的,所述步骤S12在每个子带信号上进行倒谱域去混响(即将信号变换到倒谱域,再进行去混响)处理,获得去混响的左右耳各子带信号,具体包括步骤:S31:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,n表示指数,0≤n≤K-1,其中K是窗长,0<α≤1;S32:对各信号进行倒谱处理,并计算倒谱域接收信号和脉冲信号的最小相位分量;k表示倒谱域变量,脉冲响应,脉冲信号的最小相位分量。S33:通过连续信号帧递归获得估计的混响分量,即其中,0<μ<1,m表示帧数;表示倒谱域接收信号的最小脉冲响应,表示脉冲信号的最小相位分量。S34:子带信号减去混响部分得到去混后的倒谱子带信号:S35:再将反变换到时域,并且使用逆指数窗,得到去混子带信号。进一步的,对于采样频率为16000Hz的语音信号,时延范围在GCCF将会在每个字带上产生33维的双耳特征,加上1维的ILD,最终形成34维的定位特征向量。进一步的,使用DNN将34维双耳特征集映射到对应的方位角,对于gammatone滤波器分频后的22个频段中的每一个频段都会使用单独的DNN进行训练;在随后的训练过程中隐含层的数量会逐渐增加。在每一个训练过程中采用小批量梯度下降方法加动量的配置,在每个训练阶段结束时,在最后一个隐含层和输出层之间增加一个额外的隐含层,重复训练阶段,直到达到所需的隐含层;输出声源处于每个方位的概率,取最大概率方位角为声源位置。进一步的,所述DNN包含一层输出层,两层隐含层和一层输出层,输入层有34个节点,每个节点假定为一个具有零均值和单位方差的高斯随机变量,每个频带的34维双耳特征输入在作为DNN的输入之前,都进行了高斯归一化,并加入白色高斯噪声以避免过拟合,两层隐含层中每层包含128个神经元,隐含层的神经元采用Sigmoid激活函数,具体表达式为:式中z表示神经元的输入,σ(z)表示神经元的输出;输出层采用Softmax回归函数,Softmax回归是logistics回归在多分类问题上的推广,将全部方位角0°到360°每间隔5°进行划分,得到72个方位角,因此输出层中有72个节点对应着7本文档来自技高网
...

【技术保护点】
1.一种基于分频和深度神经网络的声源定位方法,其特征在于,包括以下步骤:S11、首先获取纯净的语音信号,再通过卷积双耳房间脉冲响应BRIR来构建带混响的双耳信号,再加入噪声;S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理,首先使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号,将每个子带信号变换到倒谱域,再进行去混响处理,获得去混响的左右耳各子带信号;S13:对步骤S12得到的去混响的左右耳各子带信号进行特征提取,选择GCCF和双耳水平差作为双耳定位特征;S14:将步骤S13得到的定位特征,输入到顶层为softmax回归结构的DNNs深度神经网络,输出声源处于每个方位的概率,取最大概率方位角为声源位置。

【技术特征摘要】
1.一种基于分频和深度神经网络的声源定位方法,其特征在于,包括以下步骤:S11、首先获取纯净的语音信号,再通过卷积双耳房间脉冲响应BRIR来构建带混响的双耳信号,再加入噪声;S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理,首先使用Gammatone滤波器组对双耳信号进行分频处理,得到不同频率的子带双耳信号,将每个子带信号变换到倒谱域,再进行去混响处理,获得去混响的左右耳各子带信号;S13:对步骤S12得到的去混响的左右耳各子带信号进行特征提取,选择GCCF和双耳水平差作为双耳定位特征;S14:将步骤S13得到的定位特征,输入到顶层为softmax回归结构的DNNs深度神经网络,输出声源处于每个方位的概率,取最大概率方位角为声源位置。2.根据权利要求1所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述BRIR是房间脉冲响应RIR卷积头部脉冲响应HRIR得来的,其中HRIR是HRTF头部相关传递函数的时域表示。3.根据权利要求1所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述步骤S13针对每个频带独立地计算右耳信号和左耳信号之间的互相关,选择广义互相关函数GCCF,其中加权函数为相位加权ILD对应着左右耳信号之间的能量比,单位为Db,ITD(双耳时间差)和ILD在不同频率范围的作用是不同的,当声音频率小于1500Hz时,ITD在双耳声源定位中起到主要作用;当声音频率大于1500Hz时,相对ITD,ILD是声源定位线索中的主要部分,ILD也会作为定位特征,最后选择GCCF和双耳水平差作为定位特征。4.根据权利要求1所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述步骤S12采用一组gammatone滤波器来模拟耳蜗的分频特性,从而对声源信号进行分频处理具体包括:双耳信号经过gammatone滤波器组进行分频,将语音信号分为子带信号。选择临界频带的中心频率作为Gammatone滤波器的中心频率,在得到子带信号之后,在子带信号每帧上加入指数窗使其变为最小相位信号,然后进行倒谱计算并分解出最小相位分量,获得估计的混响分量,再将子带信号滤除混响分量,反变换到时域,加上逆指数窗,得到去混子带信号。5.根据权利要求4所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述滤波器的阶数为4。6.根据权利要求4所述的基于分频和深度神经网络的声源定位方法,其特征在于,所述步骤S12将每个子带信号变换到倒谱域,再进行去混响处理,获得去混响的左右耳各子带信号,具体包括步骤:S31:在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)=αn,n...

【专利技术属性】
技术研发人员:胡章芳乐聪聪谭术兵徐渝松陈飞雨
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1