基于卷积神经网络与随机森林分类的声音场景识别方法技术

技术编号：18352739 阅读：87 留言：0更新日期：2018-07-02 03:37

本发明专利技术涉及一种基于卷积神经网络与随机森林分类的声音场景识别方法。首先，声音场景通过Mel滤波器生成Mel能量谱及其片段样本集；然后，利用片段样本集对CNN进行两阶段训练，截断全连接层的特征输出，得到片段样本集的CNN特征；最后，用随机森林对片段样本集的CNN特征进行分类，得到最终识别结果。相关实验结果表明，本发明专利技术方法在IEEE DCASE2016声音场景评估数据集上的识别率既优于Mel频率倒谱系数特征结合高斯混合模型(MFCC‑GMM)的基准方法，也优于现有的相关识别方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络与随机森林分类的声音场景识别方法
本专利技术涉及一种基于卷积神经网络与随机森林分类的声音场景识别方法。
技术介绍
声音场景识别，就是通过对音频信号进行分析，实现对声音场景的感知。作为分析环境信息的关键环节之一，它在场景识别，前景、背景声音识别和分离等方面有着广泛的应用。近年来，已经有相关研究将声音场景识别用来提升终端对情景的自主感知能力[1][2][3]。如手机检测场景声音，实现在会议情景下自动静音；在吵杂的室外环境加大通话和铃声音量；自动驾驶系统通过周围的环境声音来分析场景并实现安全驾驶等。对于声音场景的识别，一般首先提取声谱特征或Mel频率倒谱系数(Mel-frequencycepstralcoefficients,MFCC)等特征，然后利用支持向量机(SupportVectorMachine,SVM)，高斯混合模型(GaussianMixtureModel,GMM)，深度神经网络(DeepNeuralNetworks,DNN)以及卷积神经网络(ConvolutionalNeuralNetworks,CNN)等分类器进行建模和分类[4]。近期典型的有：Kong等人[5]抽取场景声音的Mel声谱特征结合DNN实现对场景的分类。Benjamin等人[6]抽取场景声音的短时MFCC特征，通过GMM和最大后验估计学习特征分布将其转化为低维特征，使用SVM进行分类。Valenti等人[7]对IEEEDCASE2016所规定使用的声音场景数据库[8]中的场景声音进行不同长度的分割，然后提取了Mel能量谱，利用CNN进行声音场景识别。Bae等人[9]...
基于卷积神经网络与随机森林分类的声音场景识别方法

【技术保护点】
1.一种基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：首先，声音场景通过Mel滤波器生成Mel能量谱及其片段样本集；然后，利用片段样本集对CNN进行两阶段训练，截断全连接层的特征输出，得到片段样本集的CNN特征；最后，用随机森林对片段样本集的CNN特征进行分类，得到最终识别结果。

【技术特征摘要】
1.一种基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：首先，声音场景通过Mel滤波器生成Mel能量谱及其片段样本集；然后，利用片段样本集对CNN进行两阶段训练，截断全连接层的特征输出，得到片段样本集的CNN特征；最后，用随机森林对片段样本集的CNN特征进行分类，得到最终识别结果。2.根据权利要求1所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集，即通过对各种不同长度的场景声音样本提取Mel能量谱，通过分片采样，得到大小一致的Mel能量谱片段作为CNN模型的训练样本。3.根据权利要求1或2所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述声音场景通过Mel滤波器生成Mel能量谱及其片段样本集的具体实现方式如下，步骤S1、场景声音信号s(n)经过短时傅里叶变换得到短时幅度谱|S(t,f)|其中，t为帧索引，f为频率，w(n)为分析窗函数；步骤S2、由短时幅度谱|S(t,f)|得到信号s(n)的能量密度函数P(t,f)P(t,f)＝S(t,f)×conj(S(t,f))＝|S(t,f)|2(2)其中，conj为求共轭复数函数；步骤S3、使用Mel滤波器组对能量密度函数P(t,f)进行滤波得到Mel滤波后的能量密度函数其中，N表示Mel滤波器组由N个三角带通滤波器构成，Bm[k]表示中心频率为fm且响应频率范围为(fm-1,fm+1)的三角带通滤波器的频率响应函数；Bm[k]可以由下式表示：其中，Mel滤波器的中心频率fm可通过对应的时域频率f得到；步骤S4、Mel滤波后的能量密度函数通过规范化log尺度得到Mel能量谱Pmel(t,f)步骤S5、对产生的Mel能量谱Pmel(t,f)进行分片采样，即采用滑动窗口取得Mel能量谱的片段；通过上述的过程，将场景声音的时域信号转化为时频域的二维图谱，即Mel能量谱及能量谱片段。4.根据权利要求3所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述CNN结构包括卷积层conv1、最大值池化层maxpool1、卷积层conv2、卷积层conv3、最大值池化层maxpool2、全连接层fc1、全连接层fc2和输出层。5.根据权利要求4所述的基于卷积神经网络与随机森林分类的声音场景识别方法，其特征在于：所述卷积层conv1、卷积层conv2、卷积层conv3均采用无偏置和宽卷积运算，且卷积核大小均为3×3，卷积窗滑动步长为1，卷积核个数分别为32，64，...

【专利技术属性】
技术研发人员：李应，李俊华，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人