一种基于深度模型集成架构的语音情感识别系统技术方案

技术编号:22330770 阅读:68 留言:0更新日期:2019-10-19 12:24
本发明专利技术涉及一种基于深度模型集成架构的语音情感识别系统,包括如下步骤:S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。本发明专利技术不仅能够使各个神经网络结构发挥自身的优势,而且具有更为优异的泛化性能。

A speech emotion recognition system based on deep Model Integration Architecture

【技术实现步骤摘要】
一种基于深度模型集成架构的语音情感识别系统
本专利技术涉及语音情感识别
,具体地说,本专利技术涉及一种基于BLSTM和CNNStacking集成架构对语音信号进行情感分类的语音情感识别系统。
技术介绍
情感计算是利用机器学习的方法模仿人类对文本、语音、图像等信息做出情感判断。由于语音不仅能传达文本所表达的意思,而且还包含丰富的情感信息(如特殊的语气词、语调的变化等),所以语音情感识别受到了越来越多的关注。目前语音情感识别的任务是对信号提取情感相关的低层次特征,并通过分类器模拟人脑建立特征与类别的映射关系。为了更好地实现人机交互,帮助人们在和机器交流的情况下有效准确地完成给定目标的任务,并且随着技术的深入研究,在诸多领域包括心理医疗、犯罪侦查、通讯检测都有着不错的发展前景,所以通过更加鲁棒的算法分析出语音信号中的情绪是非常有必要的。语音情感计算分为三个步骤:语音信号的采集、语音信号特征提取以及分类器的选择。在信号选择方面,目前国际上比较认可的数据集包括美国加州大学录制的情感语音库IEMOCAP、柏林工业大学录制的德语情感语音库DMO-DB、儿童德语情感语音库FAUAIBO和中国科学院自动化研究所录制的中文情感语音数据库CASIA。在语音信号特征提取方面,众所周知特征提取表示的是原始的音频信号通过预处理由声学特征来代替的过程。目前声学特征分为韵律学特征(包括时长、基频和能量等等)、基于谱的相关特征(包括LPC、LPCC和MFCC等等)、声音质量特征(包括共振峰频率及其带宽、频率微扰和振幅微扰等等)、融合特征(将韵律学特征、基于谱的相关特征和声音质量特征融合)和基于i-vector的特征(利用高斯混合模型将高维特征映射到低维空间的技术)。在分类器选择方面,在过去是通过GMM、HMM、MLP和SVM对语音统计特征建模,传统的算法由于复杂度不够高,并不能很好地建立特征与情感之间的映射关系。随着深度学习兴起,目前语音情感识别主要通过卷积神经网络CNN和长短期记忆网络LSTM对图像数据包括语谱图、filterbank和低维时序特征编码,再对编码后的数据分类。目前,两大网络都拥有各自的优势,CNN可以通过感受野发现局部特征之间的相关性并且可以通过池化层过滤掉扰动信号,所以CNN在处理语音数据上有着自己独特的诀窍。LSTM可以通过时序网络处理信号之间的时序关系。针对这两种网络各自的特性,若能集两大网络之所长,将会进一步提高情感识别的正确率。
技术实现思路
本专利技术所要解决的技术问题是提供一种更加有效的语音情感识别系统,通过该语音情感识别系统,可以进一步提高情感识别的正确率。由于LSTM能够很好地利用语音特征之间的时序性,CNN能够发现特征与特征之间的相关性,所以如何能够更好地结合两大网络自身的特点去完美剖析语音特征是本专利技术的一个难点。鉴于上述难点,本专利技术的目的是提出一种基于BLSTM和CNNStacking集成架构的语音情感识别系统,通过Stacking集成方法,能够更好地保持两大网络各自的优点,提升模型的总体识别性能。具体而言,一种基于深度模型集成架构的语音情感识别系统,包括如下步骤:S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。优选地,S1所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP;所述收集到的音频信号样本共包括四类感情,分别为:生气,高兴,中性,伤心;所述收集到的音频信号样本的特征由opensmile工具箱提取,并对所述音频信号样本中长度不等长的句子做分割操作得到子样本,使所得到的每一个子样本空间大小一样。优选地,S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数,所述的交叉熵损失函数可以被定义为,其中,是来自softmax层的每一类的概率分布;是L2正则化项。当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,其中,是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果,所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器。优选地,所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器,五折交叉验证被用来训练CNN和BLSTM模型,利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布和来建立新的样本集ODS,所述新的样本集ODS可以被定义为,然后根据所述五折交叉验证对不同的数据集重复执行五次,通过所述Stacking方法可以获得五个新的数据集OD1,OD2,OD3,OD4,OD5。所述新的数据集OD可以被定义为,其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。优选地,所述逻辑回归元分类器的预测函数被定义为,其中z是线性方程;gw′(.)是sigmoid函数。最后的极大似然函数可以被定义为,其中γ为真实类标。损失函数可以定义为,其中,是L2正则化项,λ′>0作为正则化参数用来权衡L(w′)和w′Tw′的重要程度。优选地,所述新的测试集是由所训练好的基分类器输出拼接而成,将所得到的新的测试集代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,本专利技术有益的效果是:本专利技术的一种基于深度模型集成架构的语音情感识别系统,利用Stacking集成方法集BLSTM和CNN网络结构之所长,CNN能够通过感受野发现特征与特征之间的关联性,BLSTM能够利用自身的特点发掘特征的时序性,从而更好地利用语音特征的多样性。使用本专利技术的语音情感识别系统不仅能够利用语音特征的时序性,又能够剖析语音特征的结构信息。因此,相对于单个神经网络方法,本方法有着更好的鲁棒性,提高了情感识别的性能。附图说明图1是本专利技术中的Stacking流程图;图2是本专利技术在训练步骤的流程图;图3是本专利技术在测试步骤的流程图;具体实施方式下面结合附图和具体实施例对本专利技术进行详细描述:本专利技术的方法共分为四个部分。第一部分:训练阶段数据预处理由于每一句话长短不一,但是放入基分类器中的数据必须是相同大小的,所以为了能够使数据更好地适配基分类器,我们对数据进行了分片处理:假设数据集中有U句话,每一句话只有一种情感,那么第i句话的特征矩阵Xi可以表示为:其中Ni表示第i句话的帧长,T表示特征矩阵的维度,U代表句子的数量。由于每句话的长度Ni不同,所以必须要把长度为Ni的矩阵切分为相同大小的L份,每一份长度为Y(如果最后一部分矩阵长度小于Y,则把它丢弃),所以一个由Xi转变而来的新的特征矩阵Di可以被定义为:新的数据集ID由Di,(i=1,2,...,U)列绑定生成。ID可以被定义为:完整的数据集ID′由one-hot编码的类标和ID组成本文档来自技高网
...

【技术保护点】
1.一种基于深度模型集成架构的语音情感识别系统,其特征在于,包括如下步骤:S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。

【技术特征摘要】
1.一种基于深度模型集成架构的语音情感识别系统,其特征在于,包括如下步骤:S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。2.根据权利要求1所述的基于BLSTM和CNNStacking集成架构的语音情感识别系统,其特征在于:S1所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP;所述收集到的音频信号样本共包括四类感情,分别为:生气,高兴,中性,伤心;所述收集到的音频信号样本的特征由opensmile工具箱提取,并对所述音频信号样本中长度不等长的句子做分割操作得到子样本,使所得到的每一个子样本空间大小一样。3.根据权利要求1所述的基于BLSTM和CNNStacking集成架构的语音情感识别系统,其特征在于:S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数,所述的交叉熵损失函数可以被定义为,其中,是来自softmax层的每一类的概率分布;是L2正则化项。当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,其中,是第i句话中第Li个分片的类标,最后Utterance-level的类标...

【专利技术属性】
技术研发人员:王喆柴冰李冬冬孙琳煜杜文莉杨海
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1