当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于attention特征融合的多模态情感识别的方法技术

技术编号:20843697 阅读:97 留言:0更新日期:2019-04-13 08:51
本发明专利技术涉及一种基于attention特征融合的多模态情感识别方法,本发明专利技术主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取,语音模态采用卷积神经网络进行特征提取,而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后将三个模态的特征采用基于attention特征层融合的方式进行特征融合,改变了传统的特征层融合方式,充分利用了不同模态之间的互补信息,给不同的模态的特征赋予一定的权重,权重是和网络一起训练学习得到,因此更加符合我们的整个数据分布,很好的提高了最后的识别效果。

【技术实现步骤摘要】
一种基于attention特征融合的多模态情感识别的方法
本专利技术涉及一种基于attention特征融合的多模态情感识别的方法,属于情感计算的

技术介绍
20世纪90年代,情感计算的概念出现在计算机的各个领域,情感计算是与人的情感有关,并由人的情感而引发或者能够影响情感的因素的计算,完全开启了对情感识别研究的大门,研究目的在于促进在信息社会实现高度和谐的人机交互体验,使得计算机具有更加全面的人工智能。人们在表达情感时,表现的方式往往不只是一种,而且在某种程度上,不同表现方式在表达情感信息时存在一定的互补作用,结合多种模态的信息进行情感识别,更加符合人类自然的行为表达方式。因此,多模态情感识别也已然成为情感识别领域的热门研究方向。基于单模态的情感识别研究虽然已取得了一定成果,但是单模态情感识别存在识别率低,鲁棒性差的特点,而多模态情感识别研究可以综合多模态的数据,捕捉模态之间的互补信息,从而可以建立一个鲁棒性强和识别率高的情感识别模型。如何有效的融合多种模态的信息是影响多模态情感识别的重要因素。多模态情感识别的融合方法包含特征层融合以及决策层融合。前者通过一定的方法将多种模态的特征通过一定的线性或非线性变换形成新的特征;后者分别对多种模态的特征进行训练、分类,得出分类结果,并在决策层通过相应的加权模型综合得出最终的结果。随着深度学习的发展,以卷积神经网络和循环神经网络为代表的深度神经网络在图像识别、计算机视觉、语音识别和自然语言处理领域取得了巨大的成功,基于以上成功的研究成果,许多研究者在多模态情感识别领域也取得了很大的进展。之前的研究成果表明基于特征层融合和决策层融合的方式对于最后的情感识别都有一个很大的提升效果。而基于决策层融合的方式虽然能够做到一定的提升效果,然考虑到了不同模态特征的差异性,体现了不同模态特征对于情感识别重要性的不同,但是却忽略了不同模态特征之间的相关性,并没有做到真正意义上的模态之间的融合。而基于特征层融合的方式,是通过将不同模态之间的特征进行有效的融合,捕捉模态之间的互补信息,从而更有效的提升融合效果。特征层融合执行简单有效,充分利用了不同模态特征的信息,但不足在于大多数特征层融合方法忽略了不同模态特征之间的差异性,无法体现每一个模态对最后结果的影响程度。因此,如何在特征层对不同模态的特征进行有效的融合是多模态情感识别的一个重要问题。
技术实现思路
针对现有技术的不足,本专利技术提供一种基于attention特征融合的多模态情感识别的方法。专利技术概述:本专利技术主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先,我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取,语音模态采用卷积神经网络进行特征提取,而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后,将三个模态的特征采用基于attention特征层融合的方式进行特征融合,最后,将融合之后的联合特征输入到分类器进行情感识别。本专利技术详细解释了各个网络的作用,充分利用了不同模态之间的互补信息,实现了信息利用率的最大化;本专利技术改变了传统的特征层融合方式,在特征融合方面引入attention机制,给不同的模态的特征赋予一定的权重,权重是和网络一起训练学习得到,不仅执行简单有效,而且还能充分体现每一个模态的特征对最后结果的影响程度,综合考虑了现有技术两种融合方式的优点,更加符合整个数据分布,很好地提高了最后的识别效果。术语解释:1、LSTM,LongShort-TermMemory,是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。2、人脸68个关键点,;人脸68个关键点是指人脸的整个轮廓和五官轮廓分别用68个点进行标定,通过这68个关键点便可以表征人脸的整个轮廓特征。本专利技术的技术方案为:一种基于attention特征融合的多模态情感识别的方法,包括步骤如下:(1)对多个模态的数据进行预处理,使其符合多个模态对应的模型的输入要求;(2)对步骤(1)预处理后的多个模态的数据进行特征提取;(3)将步骤(2)提取到的多个模态的数据特征进行特征融合:传统的特征层融合也就是分别将三个模态的特征向量进行级联形成一个总的联合特征向量,然后送往分类器进行分类。但由于不同模态的特征对我们最后的识别效果的影响程度是不一样的,为了有效的根据数据集的分布去得到每一个模态特征对最后结果的影响权重。采用attention机制,将步骤(2)提取到的多个模态的数据特征分别赋予一个权重,形成一个初始模态特征权重矩阵,通过训练学习,得到每个模态的数据特征的权重,之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合,得到联合特征向量,送到分类器进行分类;得到的权重能够更好的符合整个数据的分布,从而更好的改善整体的识别效果。由于不同模态的特征对最后的情感识别结果的影响程度是不一样的,直接进行级联不能体现出每一个模态对最后结果的影响程度。采用attention机制的思想,去给每一个模态的特征学习一个权重,然后将特征进行加权级联,这样使每一个模态的特征都能更好的发挥作用。同时每个模态的权重是和模型一起训练学习得到的,这样也更加符合整个数据的分布,可以有效提升整体的识别结果。(4)训练模型;将步骤(1)预处理后的多个模态的数据打乱后,分成若干份,设定为N份,每次取N-1份做训练,剩下1份做验证,做N次交叉验证,得到最终实验结果。根据本专利技术优选的,所述步骤(1)中,多个模态的数据包括文本数据、语音数据、视频数据,对于文本数据,预处理过程包括:通过训练词向量,将文本数据转换成数学数据,即将每一条文本中的词转换成一个词向量的表示,使其符合双向LSTM模型的输入要求;双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层,词向量层用于将文本中每一个词转化成词向量表示,双向LSTM层用于提取文本特征,第一Dropout层用于避免双向LSTM模型产生过拟合,第一全连接层用于最后的分类;对于语音数据,预处理过程包括:通过wave和wavefile软件包,将每一个语音文件转换成数字化表示;使其符合卷积神经网络模型的输入要求;所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层,二维卷积层用于提取语音特征,第二Dropout层用于避免所述卷积神经网络模型产生过拟合,池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征;对于视频数据,预处理过程包括:获取到每一段视频的总帧数,对每一段视频等间隔取若干帧图像,用这若干帧图像作为整个视频的数据表示,使其符合三维卷积神经网络模型的输入要求;三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层,三维卷积层用于提取视频特征,同时在时间和空间上进行卷积操作,第三Dropout层用于避免三维卷积神经网络模型产生过拟合,第二池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征。根据本专利技术优选的,所述步骤(2)中,对于文本数据,特征提取过程包括:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LST本文档来自技高网
...

【技术保护点】
1.一种基于attention特征融合的多模态情感识别的方法,其特征在于,包括步骤如下:(1)对多个模态的数据进行预处理,使其符合多个模态对应的模型的输入要求;(2)对步骤(1)预处理后的多个模态的数据进行特征提取;(3)将步骤(2)提取到的多个模态的数据特征进行特征融合:采用attention机制,将步骤(2)提取到的多个模态的数据特征分别赋予一个权重,形成一个初始模态特征权重矩阵,通过训练学习,得到每个模态的数据特征的权重,之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合,得到联合特征向量,送到分类器进行分类;(4)训练模型;将步骤(1)预处理后的多个模态的数据打乱后,分成若干份,设定为N份,每次取N‑1份做训练,剩下1份做验证,做N次交叉验证,得到最终实验结果。

【技术特征摘要】
2018.10.29 CN 20181126848761.一种基于attention特征融合的多模态情感识别的方法,其特征在于,包括步骤如下:(1)对多个模态的数据进行预处理,使其符合多个模态对应的模型的输入要求;(2)对步骤(1)预处理后的多个模态的数据进行特征提取;(3)将步骤(2)提取到的多个模态的数据特征进行特征融合:采用attention机制,将步骤(2)提取到的多个模态的数据特征分别赋予一个权重,形成一个初始模态特征权重矩阵,通过训练学习,得到每个模态的数据特征的权重,之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合,得到联合特征向量,送到分类器进行分类;(4)训练模型;将步骤(1)预处理后的多个模态的数据打乱后,分成若干份,设定为N份,每次取N-1份做训练,剩下1份做验证,做N次交叉验证,得到最终实验结果。2.根据权利要求1所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(1)中,多个模态的数据包括文本数据、语音数据、视频数据,对于文本数据,预处理过程包括:通过训练词向量,将文本数据转换成数学数据,即将每一条文本中的词转换成一个词向量的表示,使其符合双向LSTM模型的输入要求;双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层,词向量层用于将文本中每一个词转化成词向量表示,双向LSTM层用于提取文本特征,第一Dropout层用于避免双向LSTM模型产生过拟合,第一全连接层用于最后的分类;对于语音数据,预处理过程包括:通过wave和wavefile软件包,将每一个语音文件转换成数字化表示;使其符合卷积神经网络模型的输入要求;所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层,二维卷积层用于提取语音特征,第二Dropout层用于避免所述卷积神经网络模型产生过拟合,池化层对输入的特征图进行压缩;对于视频数据,预处理过程包括:获取到每一段视频的总帧数,对每一段视频等间隔取若干帧图像,用这若干帧图像作为整个视频的数据表示,使其符合三维卷积神经网络模型的输入要求;三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层,三维卷积层用于提取视频特征,同时在时间和空间上进行卷积操作,第三Dropout层用于避免三维卷积神经网络模型产生过拟合,第二池化层对输入的特征图进行压缩。3.根据权利要求2所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(2)中,对于文本数据,特征提取过程包括:通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;对于语音数据,特征提取过程包括:将预处理后的语音数据送往卷积神经网络模型,经过二维巻积层和池化层的作用,有效提取到每一个语音文件中富含的语音特征;对于视频数据,特征提取过程包括:将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取;经过三维巻积层和池化层操作,得到有效的视频特征;与...

【专利技术属性】
技术研发人员:李玉军宋绪靖马浩洋
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1