【技术实现步骤摘要】
基于缝合快速神经网络的声音事件定位和检测方法
[0001]本专利技术属于信号处理和人工智能
,涉及了一种基于缝合快速神经网络的声音事件定位和检测方法。
技术介绍
[0002]声音事件定位与检测是将声音事件检测和到达方向估计相结合的新兴研究领域,可以识别每个声音事件的时间活动,在事件活动时估计其空间定位轨迹,并进一步将文本标签与声音事件关联起来。声音事件定位与检测有着非常重要的研究价值,并已广泛应用于机器人、生物监测、音频监测、自动驾驶和智能城市等领域。
[0003]声音事件定位与检测的模型体系结构正在逐步完善。早期声音事件定位与检测主要分为定位与检测两个问题,定位系统主要使用广义互相关与相位变换等方法,检测系统主要建立在深度神经网络之上。近年来,基于噪声干扰和真实声音事件的联合定位与检测事件得到了广泛关注。虽然传统的深度神经网络可以同时建模声音事件定位与检测,但提取的特征信息不完整,定位和检测准确率低。
技术实现思路
[0004]本专利技术所要解决的技术问题在于解决传统深度神经网络提取特征的局限 ...
【技术保护点】
【技术特征摘要】
1.一种基于缝合快速神经网络的声音事件定位和检测方法,其特征在于:包括以下步骤:步骤1.数据集预处理从STARSS22数据集和synth
‑
set数据集中提取声音信号,所提取的声音信号包含13种声音事件类别:女性演讲/说话、男性演讲/说话、鼓掌、电话、笑声、室内声音、走路的脚步声、开关门声、音乐、乐器、水龙头、钟声、敲打;步骤2.提取声音信号的对数梅尔频谱特征和声强矢量特征;步骤3.构建缝合快速神经网络缝合快速神经网络由FasterNet块、缝合块、cosFormer、全连接层依次串联构成;所述FasterNet块由部分卷积、第一卷积层、批量归一化层、修正线性层、第二卷积层依次串联构成;所述缝合块由4个全维自适应部分卷积块、4个递归门控部分卷积块和3个缝合层构成,每次取w个全维自适应部分卷积块,4
‑
w个递归门控部分卷积块,使用缝合层按照下式进行缝合,通过神经网络搜索得到最优缝合块;SBlock(x)=(4
‑
w)
×
gmAPConv(Slayer(w
×
OSAPConv(x))式中
x
x表示缝合块的输入数据,w表示卷积块的个数,w为正整数,且w∈[0,4],当w取值为0或者4时,Slayer不参与运算,OSAPConv(
·
)表示全维自适应部分卷积块,Slayer(
·
)表示缝合层,gmAPConv(
·
)表示递归门控部分卷积块,w
×
OSAPConv(
·
)表示w个全维自适应部分卷积块,(4
‑
w)
×
g
m
APConv(
·
)表示4
‑
w个递归门控部分卷积块,SBlock(x)表示缝合块的输出数据;所述cosFormer由线性投影核和基于cos的重加权机制构成;步骤4.训练缝合快速神经网络步骤4.1.确定目标损失函数目标损失函数包括均方误差损失函数MSE、置换性不变训练损失函数L
PIT
,评价函数包括F
20
°
、ER
20
°
、LE
CD
和LR
CD
;按下式确定均方误差损失函数MSE:式中z表示样本的数量,z为有限的正整数,y
e
表示第e个样本的实际值,y
e
′
表示第e个样本的预测值;按下式确定置换性不变训练损失函数L
PIT
:式中C表示类的数量,R表示帧的数量,N表示轨道的数量,α∈Perm(cr)表示在类c和帧r上的一种可能排列,表示排列α的活动耦合笛卡尔到达方向的目标,表示在轨道n、类别c和帧r处的活动耦合笛卡尔到达方向;按下式确定评价函数F
20
°
:
式中C表示类的数量,TP
c,≤20
°
表示类c的空间阈值不超过20
°
的真阳性,FN
c
表示类c的假阴性,FP
c
表示类c的假阳性;按下式确定评价函数ER
20
°
:式中K表示活动声音事件类的数量,S表示检测到但预测错误的声音事件类的数量,D表示剩余的假阴性的数量,I表示剩余的假阳性的数量;按下式确定评价函数LE
CD
:式中,θ
v
表示第v个参考与预测之间的角度误差,TP
c
表示类c的真阳性;按下式确定评价函数LR
CD
:步骤4.2.训练缝合快速神经网络将步骤2提取的对数梅尔频谱特征和声强矢量特征输入到缝合快速神经网络中进行训练,训练至目标损失函数收敛;步骤5.测试缝合快速神经网络调取STARSS22数据集的测试集,将测试集输入到训练好的缝合快速神经网络中进行测试;步骤6.定位和检测声音事件缝合快速神经网络将帧序列映射到多活动耦合笛卡尔到达方向进行声音事件定位和检测。2.根据权利要求1所述基于缝合快速神经网络的声音事件定位和检测方法,其特征在于:步骤3中所述FasterNet块按下式构建,Output1(x1)=PWConv2(ReLU(BN(PWConv1(PConv(x1)))))式中x1表示FasterNet块的输入数据,PConv表示部分卷积,PWConv1表示第一卷积层,卷积核大小为1
×
1,步长为1,BN表示批量归一化层,ReLU表示修正线性单元层,PWConv2表示第二卷积层,卷积核大小为1
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。