一种基于深度模型集成架构的语音情感识别系统技术方案

技术编号：22330770 阅读：68 留言：0更新日期：2019-10-19 12:24

本发明专利技术涉及一种基于深度模型集成架构的语音情感识别系统，包括如下步骤：S1、对所收集到的音频信号样本提取特征，并对所提取的特征分片处理；S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器，对所选出的基分类器做五折交叉验证，把每一折测试数据所得到的输出组合成新的数据集；S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器；S4、在测试阶段，把样本代入到步骤S2所得到的基分类器中，并把各个基分类器所得到的输出拼接成新的测试集，再代入到步骤S3所训练好的元分类器中进行识别。本发明专利技术不仅能够使各个神经网络结构发挥自身的优势，而且具有更为优异的泛化性能。

A speech emotion recognition system based on deep Model Integration Architecture

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度模型集成架构的语音情感识别系统
本专利技术涉及语音情感识别
，具体地说，本专利技术涉及一种基于BLSTM和CNNStacking集成架构对语音信号进行情感分类的语音情感识别系统。
技术介绍
情感计算是利用机器学习的方法模仿人类对文本、语音、图像等信息做出情感判断。由于语音不仅能传达文本所表达的意思，而且还包含丰富的情感信息(如特殊的语气词、语调的变化等)，所以语音情感识别受到了越来越多的关注。目前语音情感识别的任务是对信号提取情感相关的低层次特征，并通过分类器模拟人脑建立特征与类别的映射关系。为了更好地实现人机交互，帮助人们在和机器交流的情况下有效准确地完成给定目标的任务，并且随着技术的深入研究，在诸多领域包括心理医疗、犯罪侦查、通讯检测都有着不错的发展前景，所以通过更加鲁棒的算法分析出语音信号中的情绪是非常有必要的。语音情感计算分为三个步骤：语音信号的采集、语音信号特征提取以及分类器的选择。在信号选择方面，目前国际上比较认可的数据集包括美国加州大学录制的情感语音库IEMOCAP、柏林工业大学录制的德语情感语音库DMO-DB、儿童德语情感语音库FAUAIBO和中国科学院自动化研究所录制的中文情感语音数据库CASIA。在语音信号特征提取方面，众所周知特征提取表示的是原始的音频信号通过预处理由声学特征来代替的过程。目前声学特征分为韵律学特征(包括时长、基频和能量等等)、基于谱的相关特征(包括LPC、LPCC和MFCC等等)、声音质量特征(包括共振峰频率及其带宽、频率微扰和振幅微扰等等)、融合特征(将韵律学特征、基于谱的相关特征和声音质量特征融...

【技术保护点】
1.一种基于深度模型集成架构的语音情感识别系统，其特征在于，包括如下步骤：S1、对所收集到的音频信号样本提取特征，并对所提取的特征分片处理；S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器，对所选出的基分类器做五折交叉验证，把每一折测试数据所得到的输出组合成新的数据集；S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器；S4、在测试阶段，把样本代入到步骤S2所得到的基分类器中，并把各个基分类器所得到的输出拼接成新的测试集，再代入到步骤S3所训练好的元分类器中进行识别。

【技术特征摘要】
1.一种基于深度模型集成架构的语音情感识别系统，其特征在于，包括如下步骤：S1、对所收集到的音频信号样本提取特征，并对所提取的特征分片处理；S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器，对所选出的基分类器做五折交叉验证，把每一折测试数据所得到的输出组合成新的数据集；S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器；S4、在测试阶段，把样本代入到步骤S2所得到的基分类器中，并把各个基分类器所得到的输出拼接成新的测试集，再代入到步骤S3所训练好的元分类器中进行识别。2.根据权利要求1所述的基于BLSTM和CNNStacking集成架构的语音情感识别系统，其特征在于：S1所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP；所述收集到的音频信号样本共包括四类感情，分别为：生气，高兴，中性，伤心；所述收集到的音频信号样本的特征由opensmile工具箱提取，并对所述音频信号样本中长度不等长的句子做分割操作得到子样本，使所得到的每一个子样本空间大小一样。3.根据权利要求1所述的基于BLSTM和CNNStacking集成架构的语音情感识别系统，其特征在于：S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数，所述的交叉熵损失函数可以被定义为，其中，是来自softmax层的每一类的概率分布；是L2正则化项。当网络训练完毕时，样本的类标可以通过计算softmax输出的概率分布得到，其中，是第i句话中第Li个分片的类标，最后Utterance-level的类标...

【专利技术属性】
技术研发人员：王喆，柴冰，李冬冬，孙琳煜，杜文莉，杨海，
申请(专利权)人：华东理工大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人