一种基于attention特征融合的多模态情感识别的方法技术

技术编号：20843697 阅读：97 留言：0更新日期：2019-04-13 08:51

本发明专利技术涉及一种基于attention特征融合的多模态情感识别方法，本发明专利技术主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取，语音模态采用卷积神经网络进行特征提取，而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后将三个模态的特征采用基于attention特征层融合的方式进行特征融合，改变了传统的特征层融合方式，充分利用了不同模态之间的互补信息，给不同的模态的特征赋予一定的权重，权重是和网络一起训练学习得到，因此更加符合我们的整个数据分布，很好的提高了最后的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于attention特征融合的多模态情感识别的方法
本专利技术涉及一种基于attention特征融合的多模态情感识别的方法，属于情感计算的

技术介绍
20世纪90年代，情感计算的概念出现在计算机的各个领域，情感计算是与人的情感有关，并由人的情感而引发或者能够影响情感的因素的计算，完全开启了对情感识别研究的大门，研究目的在于促进在信息社会实现高度和谐的人机交互体验，使得计算机具有更加全面的人工智能。人们在表达情感时，表现的方式往往不只是一种，而且在某种程度上，不同表现方式在表达情感信息时存在一定的互补作用，结合多种模态的信息进行情感识别，更加符合人类自然的行为表达方式。因此，多模态情感识别也已然成为情感识别领域的热门研究方向。基于单模态的情感识别研究虽然已取得了一定成果，但是单模态情感识别存在识别率低，鲁棒性差的特点，而多模态情感识别研究可以综合多模态的数据，捕捉模态之间的互补信息，从而可以建立一个鲁棒性强和识别率高的情感识别模型。如何有效的融合多种模态的信息是影响多模态情感识别的重要因素。多模态情感识别的融合方法包含特征层融合以及决策层融合。前者通过一定的方法将多种模态的特征通过一定的线性或非线性变换形成新的特征；后者分别对多种模态的特征进行训练、分类，得出分类结果，并在决策层通过相应的加权模型综合得出最终的结果。随着深度学习的发展，以卷积神经网络和循环神经网络为代表的深度神经网络在图像识别、计算机视觉、语音识别和自然语言处理领域取得了巨大的成功，基于以上成功的研究成果，许多研究者在多模态情感识别领域也取得了很大的进展。之前的研究成果表明基...

【技术保护点】
1.一种基于attention特征融合的多模态情感识别的方法，其特征在于，包括步骤如下：(1)对多个模态的数据进行预处理，使其符合多个模态对应的模型的输入要求；(2)对步骤(1)预处理后的多个模态的数据进行特征提取；(3)将步骤(2)提取到的多个模态的数据特征进行特征融合：采用attention机制，将步骤(2)提取到的多个模态的数据特征分别赋予一个权重，形成一个初始模态特征权重矩阵，通过训练学习，得到每个模态的数据特征的权重，之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合，得到联合特征向量，送到分类器进行分类；(4)训练模型；将步骤(1)预处理后的多个模态的数据打乱后，分成若干份，设定为N份，每次取N‑1份做训练，剩下1份做验证，做N次交叉验证，得到最终实验结果。

【技术特征摘要】
2018.10.29 CN 20181126848761.一种基于attention特征融合的多模态情感识别的方法，其特征在于，包括步骤如下：(1)对多个模态的数据进行预处理，使其符合多个模态对应的模型的输入要求；(2)对步骤(1)预处理后的多个模态的数据进行特征提取；(3)将步骤(2)提取到的多个模态的数据特征进行特征融合：采用attention机制，将步骤(2)提取到的多个模态的数据特征分别赋予一个权重，形成一个初始模态特征权重矩阵，通过训练学习，得到每个模态的数据特征的权重，之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合，得到联合特征向量，送到分类器进行分类；(4)训练模型；将步骤(1)预处理后的多个模态的数据打乱后，分成若干份，设定为N份，每次取N-1份做训练，剩下1份做验证，做N次交叉验证，得到最终实验结果。2.根据权利要求1所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(1)中，多个模态的数据包括文本数据、语音数据、视频数据，对于文本数据，预处理过程包括：通过训练词向量，将文本数据转换成数学数据，即将每一条文本中的词转换成一个词向量的表示，使其符合双向LSTM模型的输入要求；双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层，词向量层用于将文本中每一个词转化成词向量表示，双向LSTM层用于提取文本特征，第一Dropout层用于避免双向LSTM模型产生过拟合，第一全连接层用于最后的分类；对于语音数据，预处理过程包括：通过wave和wavefile软件包，将每一个语音文件转换成数字化表示；使其符合卷积神经网络模型的输入要求；所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层，二维卷积层用于提取语音特征，第二Dropout层用于避免所述卷积神经网络模型产生过拟合，池化层对输入的特征图进行压缩；对于视频数据，预处理过程包括：获取到每一段视频的总帧数，对每一段视频等间隔取若干帧图像，用这若干帧图像作为整个视频的数据表示，使其符合三维卷积神经网络模型的输入要求；三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层，三维卷积层用于提取视频特征，同时在时间和空间上进行卷积操作，第三Dropout层用于避免三维卷积神经网络模型产生过拟合，第二池化层对输入的特征图进行压缩。3.根据权利要求2所述的一种基于attention特征融合的多模态情感识别的方法，其特征在于，所述步骤(2)中，对于文本数据，特征提取过程包括：通过双向LSTM获取文本的上文信息和下文信息，即获取该文本数据的语义特征和时序特征；双向LSTM包括两个方向不同的LSTM，一个LSTM按照句子中词的顺序从前往后读取数据，获得上文信息；另一个LSTM从后往前按照句子词序的反方向读取数据，获得下文信息；对于语音数据，特征提取过程包括：将预处理后的语音数据送往卷积神经网络模型，经过二维巻积层和池化层的作用，有效提取到每一个语音文件中富含的语音特征；对于视频数据，特征提取过程包括：将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取；经过三维巻积层和池化层操作，得到有效的视频特征；与...

【专利技术属性】
技术研发人员：李玉军，宋绪靖，马浩洋，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人