当前位置: 首页 > 专利查询>福州大学专利>正文

基于卷积神经网络与随机森林分类的声音场景识别方法技术

技术编号:18352739 阅读:87 留言:0更新日期:2018-07-02 03:37
本发明专利技术涉及一种基于卷积神经网络与随机森林分类的声音场景识别方法。首先,声音场景通过Mel滤波器生成Mel能量谱及其片段样本集;然后,利用片段样本集对CNN进行两阶段训练,截断全连接层的特征输出,得到片段样本集的CNN特征;最后,用随机森林对片段样本集的CNN特征进行分类,得到最终识别结果。相关实验结果表明,本发明专利技术方法在IEEE DCASE2016声音场景评估数据集上的识别率既优于Mel频率倒谱系数特征结合高斯混合模型(MFCC‑GMM)的基准方法,也优于现有的相关识别方法。

【技术实现步骤摘要】
基于卷积神经网络与随机森林分类的声音场景识别方法
本专利技术涉及一种基于卷积神经网络与随机森林分类的声音场景识别方法。
技术介绍
声音场景识别,就是通过对音频信号进行分析,实现对声音场景的感知。作为分析环境信息的关键环节之一,它在场景识别,前景、背景声音识别和分离等方面有着广泛的应用。近年来,已经有相关研究将声音场景识别用来提升终端对情景的自主感知能力[1][2][3]。如手机检测场景声音,实现在会议情景下自动静音;在吵杂的室外环境加大通话和铃声音量;自动驾驶系统通过周围的环境声音来分析场景并实现安全驾驶等。对于声音场景的识别,一般首先提取声谱特征或Mel频率倒谱系数(Mel-frequencycepstralcoefficients,MFCC)等特征,然后利用支持向量机(SupportVectorMachine,SVM),高斯混合模型(GaussianMixtureModel,GMM),深度神经网络(DeepNeuralNetworks,DNN)以及卷积神经网络(ConvolutionalNeuralNetworks,CNN)等分类器进行建模和分类[4]。近期典型的有:Kong等人[5]抽取场景声音的Mel声谱特征结合DNN实现对场景的分类。Benjamin等人[6]抽取场景声音的短时MFCC特征,通过GMM和最大后验估计学习特征分布将其转化为低维特征,使用SVM进行分类。Valenti等人[7]对IEEEDCASE2016所规定使用的声音场景数据库[8]中的场景声音进行不同长度的分割,然后提取了Mel能量谱,利用CNN进行声音场景识别。Bae等人[9]将CNN和长短时记忆(LongShort-TermMemory,LSTM)进行结构上的联合特征提取,再使用DNN进行进一步对声音场景分类。Lidy等人[10]使用Constant-Qtransform(CQT)生成场景声音相应的声谱图,然后用双CNN并行的方式对声音场景进行建模和分类等。其中,Valenti[7]与Bae[9]等人结合CNN的方法取得了较高的识别率。然而,基于CNN的相关方法中有以下缺点:1)识别效果依赖于设置分割的长度,长度不同引起的识别率变化将导致CNN模型不稳定,且在新数据集上需要多次调整分割参数,产生的效果带有一定偶然性。2)进行复杂结构的神经网络联合加剧模型的复杂度,使得模型难以训练。针对这些缺点,本文根据IEEEDCASE2016中关于声音场景分类问题,提出卷积神经网络与随机森林结合的识别方法,使用随机森林对CNN中间特征进行识别。
技术实现思路
本专利技术的目的在于提供一种基于卷积神经网络与随机森林分类的声音场景识别方法,该方法在IEEEDCASE2016声音场景评估数据集上的识别率既优于Mel频率倒谱系数特征结合高斯混合模型(MFCC-GMM)的基准方法,也优于现有的相关识别方法。为实现上述目的,本专利技术的技术方案是:一种基于卷积神经网络与随机森林分类的声音场景识别方法,首先,声音场景通过Mel滤波器生成Mel能量谱及其片段样本集;然后,利用片段样本集对CNN进行两阶段训练,截断全连接层的特征输出,得到片段样本集的CNN特征;最后,用随机森林对片段样本集的CNN特征进行分类,得到最终识别结果。在本专利技术一实施例中,所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集,即通过对各种不同长度的场景声音样本提取Mel能量谱,通过分片采样,得到大小一致的Mel能量谱片段作为CNN模型的训练样本。在本专利技术一实施例中,所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集的具体实现方式如下,步骤S1、场景声音信号s(n)经过短时傅里叶变换得到短时幅度谱|S(t,f)|其中,t为帧索引,f为频率,w(n)为分析窗函数;步骤S2、由短时幅度谱|S(t,f)|得到信号s(n)的能量密度函数P(t,f)P(t,f)=S(t,f)×conj(S(t,f))=|S(t,f)|2(2)其中,conj为求共轭复数函数;步骤S3、使用Mel滤波器组对能量密度函数P(t,f)进行滤波得到Mel滤波后的能量密度函数其中,N表示Mel滤波器组由N个三角带通滤波器构成,Bm[k]表示中心频率为fm且响应频率范围为(fm-1,fm+1)的三角带通滤波器的频率响应函数;Bm[k]可以由下式表示:其中,Mel滤波器的中心频率fm可通过对应的时域频率f得到;步骤S4、Mel滤波后的能量密度函数通过规范化log尺度得到Mel能量谱Pmel(t,f)步骤S5、对产生的Mel能量谱Pmel(t,f)进行分片采样,即采用滑动窗口取得Mel能量谱的片段;通过上述的过程,将场景声音的时域信号转化为时频域的二维图谱,即Mel能量谱及能量谱片段。在本专利技术一实施例中,所述CNN结构包括卷积层conv1、最大值池化层maxpool1、卷积层conv2、卷积层conv3、最大值池化层maxpool2、全连接层fc1、全连接层fc2和输出层。在本专利技术一实施例中,所述卷积层conv1、卷积层conv2、卷积层conv3均采用无偏置和宽卷积运算,且卷积核大小均为3×3,卷积窗滑动步长为1,卷积核个数分别为32,64,64;所述最大值池化层maxpool1和最大值池化层maxpool2的池化窗大小为2×2,池化窗滑动步长为2;所述全连接层fc1和全连接层fc2神经元个数为512,输出层神经元个数为15;各层激活函数均采用修正线性单元;卷积层conv1在激活函数激活前,对该层的净激活值进行批标准化,卷积层conv2和卷积层conv3在激活函数激活前,加入l2正则化对卷积核参数本身进行惩罚;在全连接层fc1和全连接层fc2,采用0.5概率的Dropout训练策略,即在训练中随机让该层一定比例的神经元保留权重而不做输出;在输出层,全连接层产生的特征通过softmax激活得到分类的结果。在本专利技术一实施例中,所述利用片段样本集对CNN进行两阶段训练,截断全连接层的特征输出,得到片段样本集的CNN特征的具体实现过程如下,第一阶段:将片段样本集划分成4种不同训练与测试子集的方案,即分别采用4种不同训练与测试子集的3/4做训练子集,1/4做验证子集;采用EarlyStopping策略,即每对CNN权重训练一次,就用验证子集进行一次验证,若识别率连续5次下滑则停止训练,并保存对验证子集识别率最高的权重,最后获得4组CNN的权重;选择4组中对验证子集识别率最高的权重作为第一阶段的训练结果;第二阶段:载入第一阶段的权重,然后对所有片段样本集进行训练;对整个片段样本集的损失值使用学习率调整与EarlyStopping相结合的策略,即,比较每次训练的损失值,并保存损失值最低时的CNN权重;若损失值未连续5次下降,则学习率减小一半;若损失值连续5次上升则停止训练;根据第二阶段训练获得的CNN权重,构建CNN模型;其中,卷积层conv1到池化层maxpool2实现Mel能量谱的特征映射,全连接层fc1和fc2对特征映射进行降维;因此,通过截断全连接层的相关输出,获得CNN中间特征。在本专利技术一实施例中,所述用随机森林对片段样本集的CNN特征进行分类,得到最终识别结果的具体实现方式如下,首先,将场景声音训练样本的CNN本文档来自技高网
...
基于卷积神经网络与随机森林分类的声音场景识别方法

【技术保护点】
1.一种基于卷积神经网络与随机森林分类的声音场景识别方法,其特征在于:首先,声音场景通过Mel滤波器生成Mel能量谱及其片段样本集;然后,利用片段样本集对CNN进行两阶段训练,截断全连接层的特征输出,得到片段样本集的CNN特征;最后,用随机森林对片段样本集的CNN特征进行分类,得到最终识别结果。

【技术特征摘要】
1.一种基于卷积神经网络与随机森林分类的声音场景识别方法,其特征在于:首先,声音场景通过Mel滤波器生成Mel能量谱及其片段样本集;然后,利用片段样本集对CNN进行两阶段训练,截断全连接层的特征输出,得到片段样本集的CNN特征;最后,用随机森林对片段样本集的CNN特征进行分类,得到最终识别结果。2.根据权利要求1所述的基于卷积神经网络与随机森林分类的声音场景识别方法,其特征在于:所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集,即通过对各种不同长度的场景声音样本提取Mel能量谱,通过分片采样,得到大小一致的Mel能量谱片段作为CNN模型的训练样本。3.根据权利要求1或2所述的基于卷积神经网络与随机森林分类的声音场景识别方法,其特征在于:所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集的具体实现方式如下,步骤S1、场景声音信号s(n)经过短时傅里叶变换得到短时幅度谱|S(t,f)|其中,t为帧索引,f为频率,w(n)为分析窗函数;步骤S2、由短时幅度谱|S(t,f)|得到信号s(n)的能量密度函数P(t,f)P(t,f)=S(t,f)×conj(S(t,f))=|S(t,f)|2(2)其中,conj为求共轭复数函数;步骤S3、使用Mel滤波器组对能量密度函数P(t,f)进行滤波得到Mel滤波后的能量密度函数其中,N表示Mel滤波器组由N个三角带通滤波器构成,Bm[k]表示中心频率为fm且响应频率范围为(fm-1,fm+1)的三角带通滤波器的频率响应函数;Bm[k]可以由下式表示:其中,Mel滤波器的中心频率fm可通过对应的时域频率f得到;步骤S4、Mel滤波后的能量密度函数通过规范化log尺度得到Mel能量谱Pmel(t,f)步骤S5、对产生的Mel能量谱Pmel(t,f)进行分片采样,即采用滑动窗口取得Mel能量谱的片段;通过上述的过程,将场景声音的时域信号转化为时频域的二维图谱,即Mel能量谱及能量谱片段。4.根据权利要求3所述的基于卷积神经网络与随机森林分类的声音场景识别方法,其特征在于:所述CNN结构包括卷积层conv1、最大值池化层maxpool1、卷积层conv2、卷积层conv3、最大值池化层maxpool2、全连接层fc1、全连接层fc2和输出层。5.根据权利要求4所述的基于卷积神经网络与随机森林分类的声音场景识别方法,其特征在于:所述卷积层conv1、卷积层conv2、卷积层conv3均采用无偏置和宽卷积运算,且卷积核大小均为3×3,卷积窗滑动步长为1,卷积核个数分别为32,64,...

【专利技术属性】
技术研发人员:李应李俊华
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1