一种基于信号时域特征的深度学习声源定位方法技术

技术编号:36695814 阅读:12 留言:0更新日期:2023-02-27 20:07
本发明专利技术涉及一种基于信号时域特征的深度学习声源定位方法,本发明专利技术通过时域信号切割重构方法计算得到输入特征,使用三维空间位置特征降维处理及表示方法计算得到输出特征,并基于优化后的卷积神经网络对输入特征和输出特征进行非线性建模,通过不断修正神经网络参数对神经网络进行优化,进而对位置未知的声源发出的时域信号进行位置预测。本发明专利技术不依赖于任何基础信号处理方法,直接以时域信号作为网络的输入特征,保留了信号原始特征信息且减少了运算量。同时以0、1为标定值对三维空间中的声源位置信息进行标定,以标定后声源空间位置特征矩阵作为网络的输出,经测试,此种标定方式对削弱旁瓣效应具有显著效果。标定方式对削弱旁瓣效应具有显著效果。标定方式对削弱旁瓣效应具有显著效果。

【技术实现步骤摘要】
一种基于信号时域特征的深度学习声源定位方法


[0001]本专利技术属声源定位
,尤其是一种基于信号时域特征的深度学习声源定位方法。

技术介绍

[0002]基于麦克风阵列的声源定位技术被广泛应用于工业及军事领域,主要定位算法分为广义互相关延时估计法、高分辨空间谱估计法以及波束形成法。目前主流的算法为波束形成算法,利用信号到达各阵元的产生的相位差异,将各阵元采集来的信号进行加权求和形成波束,通过搜索声源的可能位置来引导该波束,修改权值使得传声器阵列的输出信号功率最大,功率最大位置即声源所在位置。
[0003]但在实际使用过程中,由于算法原理限制,波束形成算法具有不可突破的物理极限。主要分为两方面:1、定位时需提前假定阵列面到定位面的距离,当声源远离或靠近定位面超过一定距离,产生定位误差,因此存在一定程度的工程应用限制。2、由于采用波束扫描的方式进行定位,当波束扫描至非声源位置时,产生旁瓣效应,旁瓣效应过大导致声源位置不清晰。
[0004]同时,随着人工智能的发展,深度学习方法为解决传统算法的缺陷提供了新思路。传统的多层感知机神经元的全连接模型,输入为二维特征时,需要先将原始数据转化为一维处理,导致原始数据间所隐藏的关联信息丢失,同时全连接模型参数量过大。而卷积神经网络利用参数共享的原理,与传统的多层感知机全连接层相比,使得前向传播函数实现起来更高效,同时大幅度降低了参数数量,可以最大程度保存二维或三维输入的原始特征。《一种基于卷积神经网络CNN的声源定位方法》(CN107703486A)以相位变换加权广义互相关函数作为输入,采用贝叶斯决策来构建判决式决定测试样本的类别,提高了混响及噪声环境下的定位精度。《一种利用传声器阵列的语音声源定位方法》(CN110838303A)以对数化功率谱及时

频点分布图为输入,信号到达角度为输出,采用与真实角度差小于5
°
为定位准确的评估标准,相比于传统的SRP

PHAT算法,将混响及噪声下定位精度提高了约50%。《基于均匀设计和自组织特征映射神经网络 的声源定位方法》(CN111239685A)对局部空间区域进行网格点划分,采用欧式距离法比较输入量与竞争层中的神经元对应的权值的相似性,获得声源稀疏位置,最终实现声源的精确定位,由于稀疏化的网格处理方法,使得声源定位精度取决于网格密度,因此提高了混叠声源定位中的空间分辨率。以上方法在提高混叠定位中空间分辨率、噪声及混响条件下的定位精度等方面取得了一定程度的进展,但此类方法依赖于某一基础信号处理算法,如:互相关、短时傅里叶变换等,且定位区域限于二维平面或局部三维空间。
[0005]对解决波束形成算法中旁瓣效应问题,尚不存在一种高效的解决方法。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提出一种基于信号时域特征的深度学习
声源定位方法,以时域信号作为输入特征,采用球坐标系下的空间定位模型,实现了全方位空间定位同时极大程度的削弱了旁瓣效应。
[0007]本专利技术解决其技术问题是采取以下技术方案实现的:一种基于信号时域特征的深度学习声源定位方法,包括以下步骤:步骤1、采用网格化方法离散声源位置信息并量化为仅包含0、1二值输出特征,所述声源位置信息包括球坐标系下半径、倾角和方向角;步骤2、通过预设声源位置信息计算四元麦克风阵列接收的时域信号;步骤3、采用时域信号切割重构方法截取长度为时域信号并进行重组得到输入特征;步骤4、基于优化后的卷积神经网络对输入特征、输出特征进行非线性建模;步骤5、重复步骤1至步骤4对神经网络参数进行优化,通过优化参数的神经网络对位置未知的声源发出的时域信号进行位置预测。
[0008]而且,所述步骤1的具体是实现方法为:对不同声源位置信息中半径下的声源平面进行离散,形成均匀分布的空间点集,设置存在声源位置为1、不存在为0,在半径为空间球面内形成二维声源位置信息特征矩阵为且元素值仅具有0、1两值:其中,为方向角划分的网格点数量,为倾角划分的网格点数量,以阵列为参考点,当多个单点源空间半径不同而倾角和方向角相同时,视为同一点源,对不同声源位置信息半径下的声源位置特征矩阵进行求和运算,将三维空间特征矩阵转换为二维平面特征矩阵,得到:对二维平面特征矩阵进行重组,得出仅有0、1二值的一维声源位置特征向量:其中,为球面网格点数量,在随机数据集总数为的情况下,得到输出特征。
[0009]而且,所述步骤3的具体是实现方法为:对四个麦克风接收到的时域信号进行长度截取并重组,其中截取位置固定,得到维度的二维矩阵,进而得到维度的网络输入,为随机数据集总数。
[0010]而且,所述步骤4中卷积神经网络包括3个二维卷积层、1个最大池化层、1个平滑层和1个全连接层;卷积层对时域信息特征执行离散卷积运算,在执行卷积前对特征进行零填充操作,同时增加网络的非线性拟合能力,使用RELU非线性激活函数对每个卷积层的输出特征激活,使用Adam优化器进行优化。
[0011]本专利技术的优点和积极效果是:1、本专利技术通过时域信号切割重构方法计算得到输入特征,使用三维空间位置特征降维处理及表示方法计算得到输出特征,并基于优化后的卷积神经网络对输入特征和输出特征进行非线性建模,通过不断修正神经网络参数对神经网络进行优化,将最终优化参数的神经网络对位置未知的声源发出的时域信号进行位置预测。
[0012]2、本专利技术不依赖于任何基础信号处理方法,直接以时域信号作为网络的输入特征,保留了信号原始特征信息且减少了运算量。
[0013]3、本专利技术以0、1为标定值对三维空间中的声源位置信息进行标定,同时以标定后声源空间位置特征矩阵作为网络的输出,经测试,此种标定方式对削弱旁瓣效应具有显著效果。
[0014]4、本专利技术采用球坐标系下的空间定位模型,对不同半径下的空间球面进行网格划分,不同于局部空间定位模型,可实现全方位的精准定位。
附图说明
[0015]图1是本专利技术中基于信号时域特征的深度学习定位算法流程图;图2是本专利技术的阵列定位模型示意图;图3是本专利技术中优化后的卷积神经网络模型示意图;图4是本专利技术中神经网络训练前后模型预测效果及标签值示意图;图5是本专利技术中不同半径下的声源定位效果展示图。
具体实施方式
[0016]以下结合附图对本专利技术做进一步详述。
[0017]一种基于信号时域特征的深度学习声源定位方法,如图1所示,包括以下步骤:步骤1、采用网格化方法离散声源位置信息并量化为仅包含0、1二值输出特征,声源位置信息包括球坐标系下半径、倾角和方向角。
[0018]本步骤采用三维空间位置特征降维处理及表示方法,以球坐标系为定位模型,对不同半径下的空间球面进行网格化离散并转化为0、1矩阵(存在声源为1、不存在为0),再对不同半径下的声源位置特征进行矩阵求和运算,将三维空间位置特征转化为二维位置特征,从而达到三维空间位置特征降维处理目的,同时以0、1标定的输出特征可极大程度的削弱旁瓣效应。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信号时域特征的深度学习声源定位方法,其特征在于:包括以下步骤:步骤1、采用网格化方法离散声源位置信息并量化为仅包含0、1二值输出特征,所述声源位置信息包括球坐标系下半径、倾角和方向角;步骤2、通过预设声源位置信息计算四元麦克风阵列接收的时域信号;步骤3、采用时域信号切割重构方法截取长度为时域信号并进行重组得到输入特征;步骤4、基于优化后的卷积神经网络对输入特征、输出特征进行非线性建模;步骤5、重复步骤1至步骤4对神经网络参数进行优化,通过优化参数的神经网络对位置未知的声源发出的时域信号进行位置预测。2.根据权利要求1所述的一种基于信号时域特征的深度学习声源定位方法,其特征在于:所述步骤1的具体是实现方法为:对不同声源位置信息中半径下的声源平面进行离散,形成均匀分布的空间点集,设置存在声源位置为1、不存在为0,在半径为空间球面内形成二维声源位置信息特征矩阵为且元素值仅具有0、1两值:其中,为方向角划分的网格点数量,为倾角划分的网格点数量,以阵列为参考点,当多个单点源空间半径...

【专利技术属性】
技术研发人员:唐俊孙鑫淼
申请(专利权)人:苏州静声泰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1