一种基于宽度和深度神经网络的声场景分类方法技术

技术编号:25804161 阅读:45 留言:0更新日期:2020-09-29 18:38
本发明专利技术公开了一种基于宽度和深度神经网络的声场景分类方法,包括下列步骤:首先从声场景音频样本提取对数梅尔谱特征,并划分为训练集和测试集;再设计宽度神经网络和深度联合概率网络;将训练集各音频样本的对数梅尔谱特征作为输入,对上述两个网络进行预训练;根据预训练结果构建联合判别分类树模型,训练并调优该联合判别分类树模型;最后将测试集各音频样本的对数梅尔谱特征输入联合判别分类树模型,辨识各音频样本所对应的声场景。本发明专利技术构建的联合判别分类树模型可以补足单一网络泛化能力差、稳定性弱的缺点,并利用宽度神经网络和深度神经网络的优势互补特性提升声场景分类效果。

【技术实现步骤摘要】
一种基于宽度和深度神经网络的声场景分类方法
本专利技术属于机器听觉
,涉及宽度与深度学习技术,具体涉及一种基于宽度和深度神经网络的声场景分类方法。
技术介绍
人们日常的活动都包含各种不同的声音事件,这些声音事件的组合构成各种不同的声场景。声场景分类技术具有广泛的应用场景,例如音频监控、多媒体检索、自动辅助驾驶、智能家居等领域。宽度神经网络应用在声场景分类时的分类准确率提高到一定程度后就很难再提升,很难达到实用的要求。以往声场景的分类大都基于深度神经网络,但训练时间过长是深度神经网络的缺点。事实上,宽度神经网络对于某些类别的声场景的分类准确率可以达到较高值,只是对其他的一些类别的分类准确率较低,导致整体准确率到一定程度后不能再上升。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于宽度和深度神经网络的声场景分类方法,将宽度网络引入声场景分类,减少深度神经网络训练时间从而减少整个分类网络的训练时间,再以分类树的形式联合宽度神经网络与深度联合概率网络,提高分类准确率。本专利技术在保证声场景分类网络的准确率的基础上,提高网络的训练效率。本专利技术的目的可以通过采取如下技术方案达到:一种基于宽度和深度神经网络的声场景分类方法,所述的声场景分类方法包括下列步骤:S1、建立音频数据集;从声场景音频样本提取对数梅尔谱特征,并按比例划分为训练集和测试集;S2、构建宽度神经网络:建立特征映射层和增强层,特征映射层和增强层对输入样本进行特征映射,映射的特征并列组合成输入层,输入层到输出层通过权重矩阵相连接;S3、构建深度联合概率网络:分别建立一维卷积神经网络和长短时记忆网络,然后通过加权平均一维卷积神经网络和长短时记忆网络的输出概率,将一维卷积神经网络和长短时记忆网络组合成一个深度联合概率网络;S4、构建联合判别分类树模型:根据宽度神经网络和深度联合概率网络初步训练的结果构建一个联合判别分类树模型,训练并调整联合判别分类树模型的参数直到模型收敛,得到经过训练的联合判别分类树模型;S5、声场景辨识:将测试音频样本的对数梅尔谱特征输入经过训练的联合判别分类树模型,得到各测试音频样本的声场景类别。进一步地,所述的步骤S1过程如下:S1.1、利用录音设备或互联网资源获取声场景的音频数据,将音频样本采样率和量化精度转换为统一格式,并标注各音频样本所属的声场景类别;S1.2、从音频样本提取对数梅尔谱特征并进行均值归一化处理;S1.3、将实验数据随机划分为互不相交的训练集和测试集,其中训练集占比约70%,测试集占比约30%。进一步地,所述的步骤S2过程如下:S2.1、建立特征映射层,特征映射层由N1个特征窗口组成,每个特征窗口有N2个特征节点,N1和N2根据实际输入宽度神经网络的特征数目进行选取,满足N1×N2≈特征数目/2;S2.2、建立增强层,增强节点个数为N3,这里满足(N1×N2)>N3;S2.3、特征映射层对输入样本进行特征映射,设输入宽度神经网络的样本集为D1,其中的样本数为c,每个样本的特征数为f,在每个样本后增加一个特征值等于1,得到增广的样本集D2,得到的每个样本特征数变为f+1,为每个特征窗口生成随机权重矩阵We,We是一个(f+1)×N2维的矩阵,其值符合均值为0方差为1的高斯分布,生成新的特征向量A1=D2×We,A1的维度为c×N2,将A1归一化和稀疏化表示,再求解稀疏矩阵其中表示对D2求矩阵的逆,最终生成一个窗口的特征节点T1=normal(D2×W),其中noraml()表示归一化,得到的T1维度为c×N2,为N1个特征窗口生成特征节点,最终得到特征映射层的特征映射yb,其维度为c×N1×N2;S2.4、对增强层输入样本进行特征映射,随机生成维度为(N1×N2)×N3的正交规范化的权重矩阵Wh,利用特征映射yb得到增强层的特征映射tansig()是神经网络的激活函数,得到的特征映射T2维度为c×N3;S2.5、映射的特征并列组合组成输入层,将特征映射yb和特征映射T2进行并列组合得到输入层每个样本的特征维度为N2×N1+N3;S2.6、通过权重矩阵连接输入层和输出层,输出层的输出Y为声场景类别的标签的onehot向量,维度为c×nB,nB为输入宽度神经网络的样本的分类类数,Y=XWB,WB为宽度神经网络训练得到的权重矩阵,维度为(N2×N1+N3)×nB。进一步地,所述的步骤S3过程如下:S3.1、构建一维卷积神经网络,该一维卷积神经网络由两个或以上的一维卷积层、一个全连接层和一个Softmax分类输出层级联组成,每个一维卷积层后面跟一个非线性激活函数进行激活后再经过最大池化后输出,设d(l-1)和dl分别为第l卷积层的输入和输出,第l卷积层的输入是第(l-1)卷积层的输出,由于第l卷积层有多个特征映射,因此将其中一个特征映射视为那么卷积层的输出表示为:其中,*表示卷积运算,表示第l层的核权重,fun()是一个非线性激活函数;第l层的最终输出表示为:maxpooling()表示最大池化,最大池化的结果作为下一层的输入;最后一层卷积层输出结果经过全连接层进行连接,最后经过Softmax分类输出层得到一维卷积神经网络的输出,输出音频样本属于不同声场景类别的概率矩阵yc;S3.2、构建长短时记忆网络,该长短时记忆网络由两个长短时记忆层和一个Softmax分类输出层级联组成,在每个长短时记忆层后可选地加入Dropout层,对每个长短时记忆层,给定输入序列x=(x1,…xT),长短时记忆层使用隐藏向量序列h=(h1,…hT),从第t=1次迭代到第T次,生成y=(y1,…yT)的输出:ot=σ(W0[ht-1,xt]+bo)ht=ot×tanh(Ct)yt=Whyht+by式中,Wo和bo分别表示长短时记忆中输入层到隐藏层的权重矩阵和偏置矢量,σ()表示Sigmoid激活函数,ot和Ct分别表示输出门和细胞激活向量,ht为长短时记忆网络的中间隐藏层变量,Why和by分别表示长短时记忆网络隐藏层到输出层的权重矩阵和偏置矢量;长短时记忆网络最后经过Softmax分类输出层输出,输出得到各音频样本属于不同声场景类别的概率矩阵yl;S3.3、通过加权平均一维卷积神经网络和长短时记忆网络的输出概率,将一维卷积神经网络和长短时记忆网络组合成一个深度联合概率网络,表示如下:ya=wcyc+wlyl其中wc和wl分别表示一维卷积神经网络和长短时记忆网络的权值,yc表示一维卷积神经网络输出音频样本概率矩阵,yl表示长短时记忆网络输出的概率矩阵,ya表示深度联合概率网络输出的概率矩阵,深度联合概率网络最终输出的分类结果yresult_i取最大输出概率节点所对应的声场景类别:yresult_i=argmax(ya),1≤i≤T其中argmax()表示取最大概率值对应的下标,T为本文档来自技高网...

【技术保护点】
1.一种基于宽度和深度神经网络的声场景分类方法,其特征在于,所述的声场景分类方法包括下列步骤:/nS1、建立音频数据集;从声场景音频样本提取对数梅尔谱特征,并按比例划分为训练集和测试集;/nS2、构建宽度神经网络:建立特征映射层和增强层,特征映射层和增强层对输入样本进行特征映射,映射的特征并列组合成输入层,输入层到输出层通过权重矩阵相连接;/nS3、构建深度联合概率网络:分别建立一维卷积神经网络和长短时记忆网络,然后通过加权平均一维卷积神经网络和长短时记忆网络的输出概率,将一维卷积神经网络和长短时记忆网络组合成一个深度联合概率网络;/nS4、构建联合判别分类树模型:根据宽度神经网络和深度联合概率网络初步训练的结果构建一个联合判别分类树模型,训练并调整联合判别分类树模型的参数直到模型收敛,得到经过训练的联合判别分类树模型;/nS5、声场景辨识:将测试音频样本的对数梅尔谱特征输入经过训练的联合判别分类树模型,得到各测试音频样本的声场景类别。/n

【技术特征摘要】
1.一种基于宽度和深度神经网络的声场景分类方法,其特征在于,所述的声场景分类方法包括下列步骤:
S1、建立音频数据集;从声场景音频样本提取对数梅尔谱特征,并按比例划分为训练集和测试集;
S2、构建宽度神经网络:建立特征映射层和增强层,特征映射层和增强层对输入样本进行特征映射,映射的特征并列组合成输入层,输入层到输出层通过权重矩阵相连接;
S3、构建深度联合概率网络:分别建立一维卷积神经网络和长短时记忆网络,然后通过加权平均一维卷积神经网络和长短时记忆网络的输出概率,将一维卷积神经网络和长短时记忆网络组合成一个深度联合概率网络;
S4、构建联合判别分类树模型:根据宽度神经网络和深度联合概率网络初步训练的结果构建一个联合判别分类树模型,训练并调整联合判别分类树模型的参数直到模型收敛,得到经过训练的联合判别分类树模型;
S5、声场景辨识:将测试音频样本的对数梅尔谱特征输入经过训练的联合判别分类树模型,得到各测试音频样本的声场景类别。


2.根据权利要求1所述的一种基于宽度和深度神经网络的声场景分类方法,其特征在于,所述的步骤S1过程如下:
S1.1、利用录音设备或互联网资源获取声场景的音频数据,将音频样本采样率和量化精度转换为统一格式,并标注各音频样本所属的声场景类别;
S1.2、从音频样本提取对数梅尔谱特征并进行均值归一化处理;
S1.3、将实验数据随机划分为互不相交的训练集和测试集,其中训练集占比约70%,测试集占比约30%。


3.根据权利要求1所述的一种基于宽度和深度神经网络的声场景分类方法,其特征在于,所述的步骤S2过程如下:
S2.1、建立特征映射层,特征映射层由N1个特征窗口组成,每个特征窗口有N2个特征节点,N1和N2根据实际输入宽度神经网络的特征数目进行选取,满足N1×N2≈特征数目/2;
S2.2、建立增强层,增强节点个数为N3,这里满足(N1×N2)>N3;
S2.3、特征映射层对输入样本进行特征映射,设输入宽度神经网络的样本集为D1,其中的样本数为c,每个样本的特征数为f,在每个样本后增加一个特征值等于1,得到增广的样本集D2,得到的每个样本特征数变为f+1,为每个特征窗口生成随机权重矩阵We,We是一个(f+1)×N2维的矩阵,其值符合均值为0方差为1的高斯分布,生成新的特征向量A1=D2×We,A1的维度为c×N2,将A1归一化和稀疏化表示,再求解稀疏矩阵其中表示对D2求矩阵的逆,最终生成一个窗口的特征节点T1=normal(D2×W),其中noraml()表示归一化,得到的T1维度为c×N2,为N1个特征窗口生成特征节点,最终得到特征映射层的特征映射yb,其维度为c×N1×N2;
S2.4、对增强层输入样本进行特征映射,随机生成维度为(N1×N2)×N3的正交规范化的权重矩阵Wh,利用特征映射yb得到增强层的特征映射tansig()是神经网络的激活函数,得到的特征映射T2维度为c×N3;
S2.5、映射的特征并列组合组成输入层,将特征映射yb和特征映射T2进行并列组合得到输入层每个样本的特征维度为N2×N1+N3;
S2.6、通过权重矩阵连接输入层和输出层,输出层的输出Y为声场景类别的标签的onehot向量,维度为c×nB,nB为输入宽度神经网络的样本的分类类数,Y=XWB,WB为宽度神经网络训练得到的权重矩阵,维度为(N2×N1+N3)×nB。


4.根据权利要求1所述的一种基于宽度和深度神经网络的声场景分类方法,其特征在于,所述的步骤S3过程如下:
S3.1、构建一维卷积神经网络,该一维卷积神经网络由两个或以上的一维卷积层、一个全连接层和一个Softmax分类输出层级联组成,每个一维卷积层后面跟一个非线性激活函数进行激活后再经过最大池化后输出,设d(l-1)和dl分别为第l卷积层的输入和输出,第l卷积层的输入是第(l-1)卷积层的输出,由于第l卷积层有多个特征映射,因此将其中一个特征映射视为那么卷积层的输出表示为:



其中,*表示卷积运算,表示第l层的核权重,fun()是一个非线性激活函数;第l层的最终输出表示为:



maxpooling()表示最大池化,最大池化的结果作为下一层的输入;最后一层卷积层输出结果经过全连接层进行连接,最后经过Softmax分类输出层得到一维卷积神经网络的输出,输出音频样本属于不同声场景类别的概率矩阵yc;
S3.2、构建长短时记忆网络,该长短时记忆网络由两个长短时记忆层和一个Softmax分类输出层级联组成,在每个长短时...

【专利技术属性】
技术研发人员:黄张金李艳雄张文浩林子珩陈奕纯谭煜枫
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1