一种基于深度学习的声源位置成像方法技术

技术编号:35676405 阅读:14 留言:0更新日期:2022-11-23 14:14
本发明专利技术公开一种基于深度学习的声源位置成像方法。本发明专利技术通过深度学习的方式从不同环境中学习声源的空间位置并形成声源位置成像图。以内存占用更小、复杂度更低的声图片作为深度学习网络的输入,以在声源平面内划分的网格的编号作为深度学习的输出构建数据集,并结合声图片的特点建立了融合先验信息的卷积神经网络。通过训练后的网络得到声源平面内每个编号对应的网格中存在声源的置信度形成声源位置成像图。本发明专利技术克服了常见声源定位方法对声音采集设备的依赖性强,对环境中噪声适应能力差,一些基于深度学习的声源位置成像方法的网络的输入的结构复杂且参数量大,声源位置成像图的直观性较差的问题。像图的直观性较差的问题。像图的直观性较差的问题。

【技术实现步骤摘要】
一种基于深度学习的声源位置成像方法


[0001]本专利技术涉及声源位置成像
,特别是涉及一种基于深度学习的声源位置成像方法。

技术介绍

[0002]随着大数据、人工智能等技术的快速发展,人们对声源位置成像方法的相关需求越来越多,其应用场景也越发广泛。目前,多用麦克风作为拾音器,并将多个麦克风组成特定形状的阵列,对声音进行空间域的滤波,最后得到声音在平面或者空间中的相对位置。基于麦克风阵列的声源定位技术在语音增强、噪声检测、智慧牧场等场景中都起着至关重要的作用。
[0003]现阶段声源定位方法按照其定位原理可分为以物理声场建模为基础的声源定位方法和基于数据驱动建模的声源定位方法。其中,前者主要包括:基于时延估计、基于高分辨率谱估计、基于可控波束形成的声源定位方法,后者主要是基于深度学习的声源定位方法。
[0004]基于可控波束形成的声源定位方法是目前常见的声源定位及声源位置成像的方法。扫描声源平面上各个点到各个麦克风之间的时延差,计算可控响应的功率,根据每个扫描点功率的差异,绘制热度图,并将其作为声源位置成像图,其中,功率最大的扫描点为声源位置点。这种声源位置成像方法需要计算每个麦克风的时延差,这对传感器以及采集卡的性能提出了较高的要求。扫描每个点会导致算法的时间复杂度偏大。该算法在定位前需确定声源频率,这也导致其受环境中噪声的影响较大。
[0005]基于深度学习的声源定位方法是一种基于数据驱动的声源位置估计方法,需要大量的数据训练从输入到输出的网络。输入和输出数据决定了模型的类型。当输出数据为坐标点时,声源定位模型为回归模型,这往往导致模型难以收敛且对采样数据要求较高。目前,在以分类模型基础的声源位置估计模型中大多以互相关函数、信号间的时间延迟、频谱图等作为模型的输入。这种模型输入数据的构建方法增大了算法的复杂度,但直接以麦克风阵列获得的电压信号作为模型的输入,将导致模型精度偏低。
[0006]基于深度学习的声源定位方法同样也受到深度网络结构的影响。目前,声源定位模型多采用图像分类领域中常用的网络结构,如AlexNet、GoogleNet、ResNet等。网络参数较多的网络对硬件的要求较高,网络参数较低的网络准确率相对较低。

技术实现思路

[0007]本专利技术的目的在于提供基于深度学习的声源位置成像方法,以解决上述
技术介绍
中提出的现有的方法对声音采集设备的依赖性强,对环境中噪声的适应能力低,一些基于深度学习的声源位置成像方法神经网络的输入的结构较为复杂,声源位置成像图的直观性较差的问题。
[0008]为实现上述目的,本专利技术实施例提供如下技术方案:
[0009]本专利技术提供了一套完整的基于深度学习的声源位置成像方法。在深度学习网络训练阶段。麦克风阵列采集到声音信号,对原始信号进行分帧、加窗、滤波处理,滤波后的阵列信号合成深度卷积神经网络的输入,即声图片,并对声源所在平面划分网格,以确定声源位置的编号,将此编号作为输出,对网络进行训练。当网络的预测准确率以及损失函数值降低到合适范围后,将网络用于声源位置的定位与成像,其中p(x
i
)表示真实概率分布,q(x
i
)表示预测概率分布。在进行声源位置定位与成像时,将麦克风阵列采集的阵列信号经过滤波处理,形成声图片,并用训练成熟的网络进行分类得到分类的置信度以及位置编号,最后将置信度作为热度值形成声源位置成像图。置信度其中x
i
,x
j
为网络最后一个全连接层的输出值。
[0010]所述方法包括如下步骤:
[0011]1)根据声源位置成像的需求,确定声源成像的精度,从而对有限的声源平面进行网格划分,并对形成的网格依次编号。
[0012]2)将声源置于步骤1)划分的网格中任意位置,在不同的环境噪声中采样,完成对所有步骤1)产生的网格的采样后,对阵列声信号进行滤波预处理。
[0013]3)按步骤2)获得预处理后的阵列声信号,对其进行分帧和加窗处理。其中每两帧之间的帧移是帧长的一半,加窗处理中使用的是矩形窗。
[0014]4)对步骤3)得到的分帧、加窗后的每一帧阵列声信号合成声图片。定义y
i
,i=1,

,m,m是麦克风阵列的阵元个数,y
i
为某一帧的阵列声信号;取这一帧第一个通道前p个采样点的值,即y1(1:p),其中p=m2,作为矩阵Q的第一行,同样取这一帧第二个通道前p个采样点的值,即y2(1:p),作为矩阵pic的第二行,依次取完这一帧m个通道的前p个采样点后,继续以每个通道p个采样点为一组,置于矩阵Q的后续行中,图4为p=64,m=8时的采样流程与结果;这样形成一个大小为p
×
p的矩阵Q.将Q的数值归一化至0

255之间,可表示为其中Q'表示归一化后的矩阵,uint8表示四舍五入取整并将数据结构调整为8位,max、min表示求最大、小值符号。此时矩阵Q'可形成一张灰度,这张灰度图被定位为声图片。
[0015]5)以步骤4)得到的声图片作为输入,以步骤1)得到的位置编号为输出,搭建卷积神经网络(CNN)作为分类器;CNN网络结构包含卷积层、池化层、全连接层,通过SoftMax函数获得声源位置编号;模型结构如图3所示。由于以步骤4)方法获得的声图片具有极强的纹理特征,计算其梯度直方图HOG特征向量作为模型的先验信息与CNN网络得到的特征向量在第一个全连接层拼接;最后通过两层全连接并通过SoftMax函数,即得到声源位置编号,其中C为最后一个全连接层向量的长度,f
y
为全连接层的输出值,为全连接层的输出值之和。
[0016]6)将声图片以及对应的位置编号划分成训练集与测试集,用训练集对步骤5)得到的网络进行训练,损失函数值loss总体上呈现逐步下降的趋势,经过多次迭代后,损失值基本不再变化;在测试集上,网络的预测准确率达到声源定位的要求后停止训练,并保存最后一次迭代的网络参数。
[0017]7)按照步骤6)中的方法得到成熟的融合先验信息的卷积神经网络,使用麦克风阵
列采集声源信号,对采集到的阵列声信号重复步骤2~4)得到声图片并通过成熟的融合先验信息的卷积神经网络得到输出声源的位置编号与置信度;
[0018]8)步骤7)中得到的置信度表示步骤1)中划分的网格中存在声源的可能性。创建一个与声源平面网格相对应的灰度图,其像素值为255,其像素尺寸为声源平面内横、纵网格的数量。将每个网格对应的置信度与灰度图的像素值相乘生成的图片为声源位置成像图。
[0019]与现有技术相比,本专利技术的有益效果是:
[0020]1)对声源平面划分网格,使用深度学习网络对网格中是否存在声源进行判断,这种划分网格的方法避免了一般深度学习回归网络中出现的难以收敛的问题,使得深度学习网络可用于声源位置成像。
[0021]2)不同信噪比环境下采集声音信号,丰富了训练数据的多样性,提升深度学习网络的检测鲁棒性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的声源位置成像方法,其特征在于,包括以下步骤:步骤1、确定声源所在空间平面声源位置成像的精度需求,从而对有限的声源平面进行网格划分,并对形成的网格依次编号;步骤2、将声源置于声源平面内所有划分的网格的任意位置中,在不同的环境噪声中声源播放声音并用麦克风阵列采样,信号采集设备记录、存储阵列声音信号;步骤3、对声音信号进行滤波、分帧、加窗预处理;步骤4、将滤波后每一帧阵列信号合成声图片;步骤5、以声图片作为深度学习网络的输入,以声源在声源平面的位置编号作为深度学习网络的输出,搭建融合先验信息的卷积神经网络;步骤6、将声图片与其对应的位置编号划分训练集与测试集,用训练集对融合先验信息的卷积神经网络进行训练,损失函数值loss总体上呈现逐步下降的趋势,经过多次迭代后,损失值基本不再变化;在测试集上,网络的预测准确率达到声源定位的要求后停止训练,并保存最后一次迭代的网络参数;步骤7、根据最后一次迭代的网络参数构建可用于声源位置成像的融合先验信息的卷积神经网络;使用麦克风阵列采集声源信号,对采集到的阵列声信号重复步骤2~4得到声图片并通过融合先验信息的卷积神经网络得到输出声源的位置编号与置信度;步骤8、构建像素大小与声源平面网格个数相一致的矩阵,其中矩阵尺寸与声源平面横、纵两个维度的网格的数量一致,矩阵中每个位点的值g
i
=uint8(255*c
i
),c
i
是每个编号对应的置信度的值,uint8是指四舍五入取整并将数据结构调整为8位;此时的矩阵可转化为灰度图,也称为声源位置成像图。2.根据权利要求1所述的一种基于深度学习的声源位置成像方法,其...

【专利技术属性】
技术研发人员:张春龙廖前锋韩孝武王松袁挺
申请(专利权)人:中国农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1