一种基于二阶循环神经网络的环境声音识别方法技术

技术编号：40013062 阅读：9 留言：0更新日期：2024-01-16 15:34

本发明专利技术公开了一种基于二阶循环神经网络的环境声音识别方法，能运用在音频监控、机器人导航的音频场景识别方面等。其过程包括：构建原始音频的特征提取模块；构建对特征模块进行处理的数据增强模块；构建基于二阶循环神经网络的序列识别模块；构建含有全局注意力的注意力模块，结合二阶循环神经网络的输出生成音频标签进行音频识别与分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及声学和计算机科学领域；在音频监控和机器人导航的音频场景识别中有很广的适用场景。为此提出了基于二阶循环神经网络的环境声音识别方法。

技术介绍

1、与语音识别相比，环境声音识别的声音更加复杂，因为后者往往没有特定的结构，并且在频率和时间维度的相关性上的先验知识非常有限。环境声音没有语音结构，也没有固定的节奏和旋律。环境声音识别的主要识别对象是三类声音事件，包括单一的声音(如鼠标点击)，离散重复声音(如键盘打字)和稳定连续声音(如发动机引擎)。

2、环境声音识别任务通常分为以下几个步骤：数据预处理，特征提取，特征选择和聚合，分类。与语音识别不同，环境声音的预处理过程往往非常原始。因为环境音并不具有语音所具有的单词概念，所以声音的预处理一般直接作为信号处理。例如使用梅尔倒谱系数(mfcc),离散小波变换(dwt),伽马特征图(gammatone-spectrogram),梅尔特征图(mel-spectrogram)，过零率(zcr)等。或者对于原始声音直接进行特征提取，这种端到端(end-to-end)的训练方法在近些年来也不断变得流行。

3、近年来随着深度学习的快速发展，深度神经网络(dnn)，卷积神经网络(cnn)相比于传统机器学习模型变现出更好的性能。相比于传统方法，深度学习方法可以更加灵活的选择特征。卷积神经网络可以从低维特征中提取高级特征，提高分类精度。循环神经网络(rnn)能够对具有时间特性的序列数据建模。然而由于常常将提取后的声音样本当做二维图像处理，在环境声音分类中往往只会使用卷积神

技术实现思路

1、本专利技术提供了一种基于二阶循环神经网络的环境声音识别方法，其特征在于，能够解决其他卷积神经网络对环境声音提取时间维度上的信息的不足，同时捕获更多全局信息用于分类，提高分类的准确度，具体技术方案如下:

2、步骤1：构建环境声音的特征提取模块，具体步骤如下：

3、步骤1.1：把环境声音表示成时间序列x[n],0≤n≤n，其中n＝fstx，fs是采样频率，tx是音频信号长度；

4、步骤1.2：用大小为ws的窗口对样本点分帧，共计划分出帧，其中n表示样本点总数，每一帧内含有ws个样本点；用窗函数w[n]对上述每一帧加窗，加窗后的样本点可以看成一个周期信号；

5、步骤1.3：用频率依次为的基信号对第j(1≤j≤nf)帧进行滤波，用公式可以表示为对复数xj[k]取模可以得到第j帧频率为ωk的能量ej[k]，e表示自然常数，i2＝-1；对第j帧频率为ωk的能量ej[k]按照频率维度拼接，可以得到第j帧的能量分布ej，其中ej＝[ej[0],ej[1],...,ej[n-1]]t；

6、步骤1.4：按帧顺序拼接每一帧的能量分布ej形成频谱图s(ω,f)，其中s(ω,f)＝[e1,e2,e3,...,enf]；

7、步骤1.5：将s(ω,f)通过梅尔滤波器生成梅尔频谱图，对s(ω,f)中的频率ω，根据公式将其转化为梅尔刻度的频率表示，其中是梅尔刻度的频率，转化后的频谱图称为梅尔频谱图

8、步骤2：构建对原数据集进行扩充的数据增强模块，具体步骤如下：

9、步骤2.1：选取数据集d中两个样本和yi,yj表示这两个样本的标签；

10、步骤2.2：设置混合比例λ,0≤λ≤1；

11、步骤2.3：根据混合公式生成混合梅尔频谱图以及根据公式yi,j＝(1-λ)yi+λyj生成的标签yi,j；

12、步骤2.4：对数据集d中任意相邻两个样本进行一次上述步骤2.1至步骤2.3的混合操作，所生成的所有混合样本构成一个大小为|d|-1的混合集dmix，其中|d|表示数据集d的样本数量；混合数据集d和dmix构成新的扩充数据集

13、步骤3：构建基于二阶循环神经网络的序列模型，输入梅尔频谱图通过二阶循环神经网络，输出和输入相同维度的序列数据二阶循环神经网络是在普通神经网络的基础上改进的模型，其聚合了更多时序信息，二阶循环神经网络的计算公式如下：

14、ot＝soft max(wo·ht+bo)

15、其中的ht，ht-1和ht-2分别表示t时刻，t-1时刻和t-2时刻隐藏单元的输出；ot表示t时刻的输出；xt表示t时刻的输入，是根据步骤1.4和步骤1.5，对梅尔频谱图取第t帧所得能量et，1≤t≤nf；wx，和wo分别表示不同的权重向量；bh和bo表示隐藏单元的偏置和输出单元的偏置；f表示一种激活函数，最常用的激活函数是σ函数。更进一步地，二阶lstm神经网络分为遗忘门，输入门和输出门，构建的步骤具体如下：

16、步骤3.1：根据步骤1.4和步骤1.5所述梅尔频谱图定义，将梅尔频谱图按照帧拆分成序列输入xt,1≤t≤nf，将序列通过遗忘门，遗忘门公式如下：

17、

18、其中xt表示t时刻的输入；ht-1和ht-2分别表示t-1时刻和t-2时刻隐藏单元的输出；wfx，和分别表示可训练的权重矩阵；bf表示偏置项；σ表示激活函数是sigmod函数；ft表示t时刻遗忘门的计算结果；

19、步骤3.2：根据步骤1.4和步骤1.5所述梅尔频谱图定义，将梅尔频谱图按照帧拆分成序列输入xt,1≤t≤nf，将序列通过输入门，输入门公式如下：

20、

21、

22、ct＝ct-1 ft+ct it

23、在第一个公式中xt表示t时刻的输入；ht-1和ht-2分别表示t-1时刻和t-2时刻隐藏单元的输出；wix，和分别表示可训练的权重矩阵；bi表示偏置项；σ表示激活函数是sigmod函数；it表示t时刻输入门的中间结果；

24、在第二个公式中xt表示t时刻的输入；ht-1和ht-2分别表示t-1时刻和t-2时刻隐藏单元的输出；wcx，和分别表示可训练的权重矩阵；bc表示偏置项；ct表示t时刻输入门的中间结果；

25、对遗忘门的结果ft和输入门的结果it分别加权，ct-1，ct表示记忆的占比，最后得到输入门的输出ct；

26、步骤3.3：根据步骤1.4和步骤1.5所述梅尔频谱图定义，将梅尔频谱图按照帧拆分成序列输入xt,1≤t≤nf，将序列通过输出门，输出门公式如下：

27、

28、ht＝ot tanh(ct)

29、其中xt表示t时刻的输入；ht-1和ht-2分别表示t-1时刻和t-2时刻隐藏单元的输出；wox，和分别表示可训练的权重矩阵；bo表示偏置项；σ表示激活函数是sigmod函数；ht表示t时刻的隐藏层输出；

30、步骤3.4：将不同时刻的隐藏层输出ht按照时间顺序拼接，得到和输入的梅尔频谱图维度相同的序列数据其中

31、步骤4：构建带有全局注意力机制的注意力模块，构建音频分类器模块，生成评价指标，本文档来自技高网...

【技术保护点】

1.一种基于二阶循环神经网络的环境声音识别方法，所述的内容包括：

2.根据权利要求1所述基于二阶循环神经网络的环境声音分类方法，其特征在于，所述步骤3中应用了二阶循环神经网络，引入二阶循环神经网络单元参与推理，t时刻隐藏层神经元的输出ht不仅和当前时刻输入Xt，t-1时刻隐藏神经元的输出ht-1有关，同时还和t-2时刻的隐藏神经元输出ht-2有关；二阶循环神经网络是在普通神经网络的基础上改进的模型，其聚合了更多时序信息，二阶循环神经网络的计算公式如下：

【技术特征摘要】

1.一种基于二阶循环神经网络的环境声音识别方法，所述的内容包括：

2.根据权利要求1所述基于二阶循环神经网络的环境声音分类方法，其特征在于，所述步骤3中应用了二阶循环神经网络，引入二阶循环神经网络单元参与推理，t时刻隐藏层...

【专利技术属性】
技术研发人员：张锎锎，李玉鑑，张乐乾，蒙福启，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人