当前位置: 首页 > 专利查询>天津大学专利>正文

基于双分支判别特征神经网络的声音事件检测方法技术

技术编号:34477695 阅读:90 留言:0更新日期:2022-08-10 08:53
本发明专利技术公开了一种基于双分支判别特征神经网络的声音事件检测方法,包括:将包含声音信号的数据集进行特征提取,得到log

【技术实现步骤摘要】
基于双分支判别特征神经网络的声音事件检测方法


[0001]本专利技术属于神经网络模型设计及应用,特别涉及一种双分支判别特征神经网络模型的应用。

技术介绍

[0002]近些年来,随着网络技术的发展,音频数据大量的出现,人们发现声音事件检测技术能给人类的生活带来很大的帮助。声音事件是指音频中所包含有一些特定的有用的信息。例如,汽车的鸣笛包含着汽车正在靠近的信息,警报器的声音包含着周围可能有危险事件的信息,风声和雨声中包含着天气环境的信息,这些信息的识别对人类生活十分有用。
[0003]在目前的研究中,研究者普遍把声音事件检测任务分为声音事件分类和声音事件定位两个子任务,其中声音事件定位一般是基于帧级别的声音事件分类实现的。因此声音事件分类的效果好坏成为声音事件检测的效果好坏的重要决定因素,所以声音事件检测中的分类任务有着重要的研究价值。声音事件检测的领域的研究相对与发展较为完善图像识别领域的研究还存在着很多挑战。首先声音事件检测进行研究的是声音信号,其形式多种多样,随机性也非常的强。其次在现实生活中一个音频中还会出现多个声音事件,这样声音事本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于双分支判别特征神经网络的声音事件检测方法,其特征在于,包括以下步骤:步骤1、数据预处理:将包含声音信号的数据集进行特征提取,得到log

mel频谱图的数据集,并按照一定比例将其分为训练集、测试集和验证集;步骤2、建立双分支判别特征网络模型,所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合:步骤如下:2

1)分别对训练集进行均匀采样和逆采样从而得到两个分支的训练样本;2

2)采用基于通道注意力机制融合语义特征和空间特征的CNN

Transformer模型对步骤2

1)获得的两个分支的训练样本的声音事件特征进行提取,得到两个分支的特征;2

3)采用随着学习过程逐渐减小的超参数将步骤2

2)得到的两个分支的特征进行融合,根据融合后的特征分别计算两个分支的损失函数,根据损失函数反向传播修改模型的参数,完成模型的训练;步骤3、将测试集和验证集作为训练后的模型的输入,该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。2.根据权利要求1所述的声音事件检测方法,其特征在于,所述步骤1中,提取log

mel频谱图时将所有音频剪辑都转换为单声道,并重新采样为32kHz;之后使用具有1024个样本的汉宁窗口和320个样本的的短时傅里叶变换来提取谱图,使得该谱图在1秒钟内产生100帧。3.根据权利要求2所述的声音事件检测方法,其特征在于,所述步骤1中,将所述的log

mel频谱图的数据集分为训练集、测试集和验证集的划分比例为8:1:1。4.根据权利要求1所述的声音事件检测方法,其特征在于:所述步骤2

1)中,设定训练集D={(x1,y1)

(x
n
,y
n
)},其中n是训练集中样本的数量;(x
k
,y
k
),且k∈(1,

n),表示样本的输入和该样本所对应的标签;所述的均匀采样中,训练集中的每个样本在一个训练时段内以相同的概率采样一次,该训练集中样本采样的概率都为将均匀采样的样本输入和该样本所对应的标签记为(x
u
,y
u
);所述的逆采样中,基于类别数量的倒数对训练集D中的样本进行采样,每一个类别的采样概率如下所示:式(1)中,p
i
代表第i个类取样的概率,n
i
代表第i个类的样本数量,c代表训练集类别的数量;将逆采样的样本输入和该样本所对应的标签记为(x

【专利技术属性】
技术研发人员:谢宗霞周雨馨
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1