基于分频和深度神经网络的声源定位方法技术

技术编号：19141322 阅读：23 留言：0更新日期：2018-10-13 08:50

本发明专利技术请求保护一种混响和噪声环境下基于分频和深度神经网络(Deep Neural Networks,DNNs)的声源定位方法，涉及声源定位领域。该方法首先双耳信号通过Gammatone滤波器后得到分频的子带信号，在每个子带信号中进行最小相位分解的去混响处理，从倒谱域中反变换到时域后对每个子带互相关计算得到广义互相关函数(Generalized Cross‑Correlation Function,GCCF)。该方法将双耳语音定位视为一个多分类的问题，将GCCF和双耳水平差(Interaural Level Differences,ILDs)作为定位特征，输入到顶层为softmax回归结构的DNNs，输出声源处于每个方位的概率，取最大概率方位角为声源位置。

Sound source localization based on frequency and depth neural network

The invention requests protection of a sound source localization method based on frequency division and depth neural networks (DNNs) in reverberation and noise environments, and relates to the field of sound source localization. Firstly, the binaural signal passes through the Gammatone filter to get the frequency-division sub-band signal. In each sub-band signal, the minimum phase decomposition is used to remove the reverberation. The generalized cross-correlation function (GCCF) is obtained by inverse transform from the cepstrum domain to the time domain. This method regards binaural speech localization as a multi-classification problem. GCCF and Interaural Level Differences (ILDs) are used as localization features and input to DNNs with soft Max regression structure at the top. The probability that the output sound source is in each direction is taken as the maximum probabilistic azimuth.

全部详细技术资料下载

【技术实现步骤摘要】
基于分频和深度神经网络的声源定位方法
本专利技术属于声源定位领域，特别是一种基于分频和深度神经网络的声源定位方法。
技术介绍
声源定位技术的内容涉及了模式识别、信号处理、语言科学、计算机技术、生理学、心理学、神经网络以及人工智能技术等多种学科，其应用领域非常广泛，包括移动通信、移动机器人、视频会议、银行安全系统、海关、公共场所监视、医学、人机交互等。例如，在军事方面，声源定位技术可以为雷达提供一个很好的补充，不需要发射信号，仅靠接收信号就可以判断目标的位置，因此，在定位的过程中就不会受到干扰和攻击。在视频会议中，说话人跟踪可为摄像机转向控制与语音拾取提供位置信息，使传播的图像和声音更清晰。声源定位技术因为其诸多优点以及在应用上的广泛前景成为一个研究热点。伴随着科技地不断进步，研究者对于说话人的定位技术也不断地更新着，主要可以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。经过几十年的发展与研究，如今的视频定位技术已经非常成熟，其可以在实现目标的定位与跟踪等功能。然而声源定位技术却更能引起众多研究者的重视，这主要由于声源定位技术有着独特的优势。第一，隐蔽性。声源定位技术只需要利用麦克风来接收声音信号，而不必向外界发送任何东西，这一点使得声源定位技术在不改变周围环境下能够轻松得到外界目标声音的信息，而自己本身的位置却很难被外界所发现。正是声源定位技术的隐蔽性，很多潜水艇在作战中不会轻易打开声呐等设备，而会使用声源定位技术来追踪目标的位置。第二，实用性。声音是属于声波，声波在传输中不会受到电磁场、光线强弱等的干扰与限制。光线强度弱的环境对于视频定位...

【技术保护点】
1.一种基于分频和深度神经网络的声源定位方法，其特征在于，包括以下步骤：S11、首先获取纯净的语音信号，再通过卷积双耳房间脉冲响应BRIR来构建带混响的双耳信号，再加入噪声；S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理，首先使用Gammatone滤波器组对双耳信号进行分频处理，得到不同频率的子带双耳信号，将每个子带信号变换到倒谱域，再进行去混响处理，获得去混响的左右耳各子带信号；S13：对步骤S12得到的去混响的左右耳各子带信号进行特征提取，选择GCCF和双耳水平差作为双耳定位特征；S14：将步骤S13得到的定位特征，输入到顶层为softmax回归结构的DNNs深度神经网络，输出声源处于每个方位的概率，取最大概率方位角为声源位置。

【技术特征摘要】
1.一种基于分频和深度神经网络的声源定位方法，其特征在于，包括以下步骤：S11、首先获取纯净的语音信号，再通过卷积双耳房间脉冲响应BRIR来构建带混响的双耳信号，再加入噪声；S12、对步骤S11得到的含混响和噪声的双耳语音信号进行预处理，首先使用Gammatone滤波器组对双耳信号进行分频处理，得到不同频率的子带双耳信号，将每个子带信号变换到倒谱域，再进行去混响处理，获得去混响的左右耳各子带信号；S13：对步骤S12得到的去混响的左右耳各子带信号进行特征提取，选择GCCF和双耳水平差作为双耳定位特征；S14：将步骤S13得到的定位特征，输入到顶层为softmax回归结构的DNNs深度神经网络，输出声源处于每个方位的概率，取最大概率方位角为声源位置。2.根据权利要求1所述的基于分频和深度神经网络的声源定位方法，其特征在于，所述BRIR是房间脉冲响应RIR卷积头部脉冲响应HRIR得来的，其中HRIR是HRTF头部相关传递函数的时域表示。3.根据权利要求1所述的基于分频和深度神经网络的声源定位方法，其特征在于，所述步骤S13针对每个频带独立地计算右耳信号和左耳信号之间的互相关，选择广义互相关函数GCCF，其中加权函数为相位加权ILD对应着左右耳信号之间的能量比，单位为Db，ITD(双耳时间差)和ILD在不同频率范围的作用是不同的，当声音频率小于1500Hz时，ITD在双耳声源定位中起到主要作用；当声音频率大于1500Hz时，相对ITD，ILD是声源定位线索中的主要部分，ILD也会作为定位特征，最后选择GCCF和双耳水平差作为定位特征。4.根据权利要求1所述的基于分频和深度神经网络的声源定位方法，其特征在于，所述步骤S12采用一组gammatone滤波器来模拟耳蜗的分频特性，从而对声源信号进行分频处理具体包括：双耳信号经过gammatone滤波器组进行分频，将语音信号分为子带信号。选择临界频带的中心频率作为Gammatone滤波器的中心频率，在得到子带信号之后，在子带信号每帧上加入指数窗使其变为最小相位信号，然后进行倒谱计算并分解出最小相位分量，获得估计的混响分量，再将子带信号滤除混响分量，反变换到时域，加上逆指数窗，得到去混子带信号。5.根据权利要求4所述的基于分频和深度神经网络的声源定位方法，其特征在于，所述滤波器的阶数为4。6.根据权利要求4所述的基于分频和深度神经网络的声源定位方法，其特征在于，所述步骤S12将每个子带信号变换到倒谱域，再进行去混响处理，获得去混响的左右耳各子带信号,具体包括步骤：S31：在各左右子带信号xl(n)和xr(n)的每一帧上加上指数窗ω(n)＝αn，n...

【专利技术属性】
技术研发人员：胡章芳，乐聪聪，谭术兵，徐渝松，陈飞雨，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人