一种基于卷积神经网络关系建模的环境声音分类方法技术

技术编号:29974879 阅读:30 留言:0更新日期:2021-09-08 09:57
一种基于卷积神经网络关系建模的环境声音分类方法,本发明专利技术涉及基于卷积神经网络关系建模的环境声音分类方法。本发明专利技术的目的是为了解决现有方法对环境声音分类准确性低的问题。过程为:一、对采集的环境声音的音频提取对数声谱图,分为训练集和测试集;二、构建环境声音分类模型;三、将训练集输入环境声音分类模型进行训练,得到预训练好的环境声音分类模型;四、将测试集输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行五;否则,重复执行三和四,直至得到训练好的环境声音分类模型;五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。本发明专利技术用于环境声音分类领域。音分类领域。音分类领域。

【技术实现步骤摘要】
一种基于卷积神经网络关系建模的环境声音分类方法


[0001]本专利技术涉及环境声音分类方法,尤其是基于卷积神经网络关系建模的环境声音分类方法。

技术介绍

[0002]环境声音分类是指通过对声音信号的分析处理,以识别出周围环境声音中包含的声学事件(如鸟叫声、风声等)或识别出记录声音时所在的物理环境(如办公室、公园等)。环境声音分类在音频内容分析、智能音箱设计、智能机器人环境感知等方面有着广泛的应用前景。
[0003]目前较先进的环境分类技术通常基于卷积神经网络。若将卷积神经网的中间特征看作是二维时频坐标下的节点的集合,节点之间的关系蕴含丰富的有价值信息:如声学事件中频繁出现的重复模式,或者声学场景中不同声学事件之间的复杂互动等。这些基于关系的丰富信息,对于获得针对环境声音的丰富且有效的表征具有十分重要的价值。然而,目前的卷积神经网普遍采用局部卷积算子,其仅对局部感受野之内的节点特征进行处理,缺乏对节点之间关系的分析和挖掘,对环境声音的表示能力不足,导致对环境声音分类的准确性低。

技术实现思路

[0004]本专利技术的目的是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络关系建模的环境声音分类方法,其特征在于:所述方法具体过程为:步骤一、采集环境声音,对采集的环境声音的音频提取对数声谱图,随机分为训练集和测试集;步骤二、构建环境声音分类模型;步骤三、将步骤一训练集提取的对数声谱图输入环境声音分类模型进行训练,直至收敛,得到预训练好的环境声音分类模型;步骤四、将步骤一中测试集的对数声谱图输入预训练好的环境声音分类模型,若准确率达到要求,得到训练好的环境声音分类模型,执行步骤五;若准确率不能达到要求,重复执行步骤三和步骤四,直至得到训练好的环境声音分类模型;步骤五、将待识别的声音信号输入训练好的环境声音分类模型,得到待识别的声音信号的类别。2.根据权利要求1所述一种基于卷积神经网络关系建模的环境声音分类方法,其特征在于:所述步骤二中构建环境声音分类模型;具体过程为:所述环境声音分类模型包括卷积神经网络、关系建模模块、全局最大池化层和全连接分类层;卷积神经网络的输出连接关系建模模块的输入,关系建模模块的输出连接全局最大池化层的输入,全局最大池化层的输出连接全连接分类层的输入,全连接分类层输出环境声音的类别标签。3.根据权利要求1或2所述一种基于卷积神经网络关系建模的环境声音分类方法,其特征在于:所述步骤二中卷积神经网络为ResNeXt卷积神经网络。4.根据权利要求3所述一种基于卷积神经网络关系建模的环境声音分类方法,其特征在于:所述步骤三中将步骤一训练集提取的对数声谱图输入环境声音分类模型进行训练,直至收敛,得到预训练好的环境声音分类模型;具体过程为:步骤一中训练集的对数声谱图记为输入环境声音分类模型的卷积神经网络,输出卷积特征X∈R
C
×
F
×
T
,将输出的卷积特征X∈R
C
×
F
×
T
输入关系建模模块,输出关系感知的卷积特征O∈R
C
×
F
×
T
,将输出的关系感知的卷积特征O∈R
C
×
F
×
T
依次输入全局最大池化层和全连接分类层,输出环境声音的类别标签Y∈R
K
;其中,F0为声谱图在频率方向上的维度,T0为声谱图在时间上的维度,K为环境声音类别数,C为通道数,F为频率维度,T为时间维度,R为实数;采用Adam随机梯度下降算法优化环境声音分类模型的参数,直至收敛,得到预训练好的环境声音分类模型。5.根据权利要求4所述一种基于卷积神经网络关系建模的环境声音分类方法,其特征在于:所述将输出的卷积特征X∈R
C
×
F
×
T
输入关系建模模块,输出关系感知的卷积特征O∈R
C
×
F
×
T
;具体过程为:步骤三一、基于时频位置信息和节点特征的关系学习,得到节点间关系的度量;步骤三二、基于步骤三一得到的节点间关系的度量进行节点特征聚合,得到关系感知节点特征;
步骤三三、基于步骤三一得到的节点间关系的度量获得关系结构特征;步骤三四、将步骤三二得到的关系感知节点特征与步骤三三得到的关系结构特征进行融合,得到关系感知的卷积特征。6.根据权利要求5所述一种基于卷积神经网络关系建模的环境声音分类方法,其特征在于:所述步骤三一中基于时频位置信息和节点特征的关系学习,得到节点间关系的度量;具体过程为:将卷积特征X表示为节点X
i
的集合形式,将节点X
i
的时、频坐标分别记为t
i
和f
i
;则节点X
i
的时频位置特征记为:其中,X
i
∈R
C
代表第i个节点;0≤t
i
≤T

1且0≤f
i
≤F

1;P
i
为节点X
i
的...

【专利技术属性】
技术研发人员:韩纪庆宋宏伟郑贵滨郑铁然
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1