当前位置: 首页 > 专利查询>烟台大学专利>正文

面向不确定模态缺失的多模态情感分析方法及系统技术方案

技术编号:37332546 阅读:19 留言:0更新日期:2023-04-21 23:10
本发明专利技术提出了面向不确定模态缺失的多模态情感分析方法及系统,涉及数据处理技术领域,具体方案包括:获取带有不确定缺失的多模态数据,包括三种模态:文本、视觉和音频;通过训练后的多模态情感分析网络处理所述三种模态数据,以生成并输出最终的情感分类;本发明专利技术基于模态翻译模块,将视觉和音频模态翻译成文本模态,提高视觉和音频模态质量并且能够捕获不同模态之间的深层交互;通过对完整模态进行预训练,得到完整模态的联合特征来指导缺失模态的联合特征向完整模态的联合特征逼近,不需要考虑有哪种模态缺失,只需要向完整模态的联合特征向量逼近即可,具有更强的通用性。具有更强的通用性。具有更强的通用性。

【技术实现步骤摘要】
面向不确定模态缺失的多模态情感分析方法及系统


[0001]本专利技术属于数据处理
,尤其涉及面向不确定模态缺失的多模态情感分析方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]目前,在信息化与智能化快速发展的环境下,多模态情感分析(MSA)在自然人机交互、个性化广告、意见挖掘和决策等领域发挥了极大的作用;该技术致力于通过文本、语音或面部表情等不同方式来识别人类情感;近年来,随着移动互联网和智能终端的快速发展,越来越多的用户通过推特、微博等社交平台表达自己的观点和感受,产生了大量的社交数据;社交平台上的数据已经从单一的文本形式发展为多模态数据,例如文本、音频和图像。
[0004]与单模态数据相比,多模态数据包含更加丰富的信息,更有利于识别用户的真实情感;当前,多模态情感分析引起了广泛的关注,已经成为人工智能领域的研究热点,并且出现了多种有效的多模态情感分析模型;例如:基于循环神经网络的多模态情感分析模型、基于Transformer的多模态情感分析模型、基于图卷积神经网络的多模态情感分析模型;现有的多模态情感分析模型能够较好地识别用户的情感,促进了多模态情感分析领域的发展。
[0005]然而,现有的MSA模型进行情感分析时,是在所有模态(文本、视觉和音频)都可用的假设下提出的;然而,在现实场景中,由于一些不可控的因素,总是会出现不确定模态缺失的情况;例如,如图1所示,由于摄像头关闭或遮挡导致视觉内容不可用;由于用户沉默,导致语音内容不可用;由于监控设备错误导致语音和文字丢失;或者由于照明或遮挡问题,无法检测到人脸;因此,所有模态随时都可用的假设在现实场景中并不总是成立;当模态随机缺失时,已有的大多数多模态情感分析模型可能会失效;因此,如何处理多模态情感分析中缺失的模态正成为一个新的挑战。
[0006]目前,已有一些研究工作集中在模态缺失问题上;Han等人提出了一种联合训练方法,该方法隐式地融合了来自辅助模态的多模态信息,从而提高了单模态情感分析性能;Srinivas等人提出的方法,研究了自动视听表情识别中的视听模态缺失问题,研究了Transformer在缺少一种模态时的性能,并进行消融研究以评估模型,结果证明该工作在模态缺失时具有很好的通用性;为了解决物体识别中模态缺失的问题,Tran等人通过利用不同模式之间的相关性来估算缺失的数据。
[0007]Zhao等人提出了一个缺失模态想象网络(MMIN)来处理不确定的模态缺失问题,MMIN学习鲁棒的联合多模态表示,它可以预测在不同缺失模态条件下给定可用模态的任何缺失模态的表示;Zeng等人提出了一种标签辅助Transformer编码器(TATE)网络来处理缺失不确定模态的问题,TATE中包含一个标签编码模块,可以同时涵盖单模态和多模态缺失的情况。
[0008]上述研究取得了良好的效果,在缺乏特定模态的情况下推动了情感分析的研究;虽然取得了不错的成绩,但仍存在以下不足:首先,现有作品在实现特征融合时只进行拼接操作,无法捕获不同模态特征之间的交互;其次,现有的工作没有考虑MSA中文本模态的优势,从而影响了多模态情感分析的效果;此外,现有的工作需要考虑不同模态的缺失情况,然后对不同的缺失情况进行处理,随后进行情感分析,增加了模型的复杂度。

技术实现思路

[0009]为克服上述现有技术的不足,本专利技术提供了面向不确定模态缺失的多模态情感分析方法及系统,基于模态翻译模块,将视觉和音频模态翻译成文本模态,通过对完整模态进行预训练,得到完整模态的联合特征来指导缺失模态的联合特征向完整模态的联合特征逼近,不需要考虑有哪种模态缺失,只需要向完整模态的联合特征向量逼近即可,具有更强的通用性。
[0010]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0011]本专利技术第一方面提供了面向不确定模态缺失的多模态情感分析方法;
[0012]面向不确定模态缺失的多模态情感分析方法,包括:
[0013]获取带有不确定缺失的多模态数据,包括三种模态:文本、视觉和音频;
[0014]通过训练后的多模态情感分析网络处理所述三种模态数据,以生成并输出最终的情感分类;
[0015]其中,所述多模态情感分析网络包括模态翻译模块,所述模态翻译模块是基于多头自注意力机制提取三种模态数据的单模态特征,并使用Transformer解码器对Transformer编码器进行监督,使视觉特征和音频特征逼近文本特征,从而将视觉特征和音频特征翻译成文本特征。
[0016]进一步的,所述基于多头自注意力机制提取三种模态数据的单模态特征,具体为:
[0017]使用Transformer编码器提取每种模态的上下文特征;
[0018]对提取的上下文特征进行残差连接,并进行归一化;
[0019]对归一化之后的上下文特征进行线性变换,得到三种模态数据的单模态特征。
[0020]进一步的,所述使用Transformer解码器对Transformer编码器进行监督,具体为:
[0021]以文本特征作为多头注意力机制的Quary、待翻译的模态特征作为多头注意力机制的Key和Value,构建Transformer解码器;
[0022]通过待翻译的模态特征与Transformer解码器输出的文本特征之间的翻译损失,监督Transformer编码器将待翻译的模态特征向文本特征进行翻译。
[0023]进一步的,所述多模态情感分析网络还包括公共空间投影模块;
[0024]所述公共空间投影模块是对模态翻译后的三种模态特征进行线性变换,获取各模态的自相关公共空间,将其融合为缺失模态的联合特征。
[0025]进一步的,所述多模态情感分析网络还包括预训练模块和Transformer编码器模块;
[0026]所述预训练模块,使用所有完整的模态数据对多模态情感分析网络进行预训练;
[0027]所述Transformer编码器模块,在预训练的多模态情感分析网络的监督下,指导缺失模态的联合特征向完整模态的联合特征逼近,对缺失模态的联合特征进行编码,从而生
成完整模态的联合特征。
[0028]进一步的,所述多模态情感分析网络还包括Transformer解码器模块;
[0029]将所述Transformer编码器模块的输出作为Transformer解码器模块的输入,通过解码器损失,引导Transformer编码器学习不同模态之间的长期依赖关系。
[0030]进一步的,所述多模态情感分析网络的总体训练目标由分类损失、预训练损失、Transformer编码器

解码器损失、模态翻译损失加权求和得到。
[0031]本专利技术第二方面提供了面向不确定模态缺失的多模态情感分析系统。
[0032]面向不确定模态缺失的多模态情感分析系统,包括:
[0033]数据获取单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向不确定模态缺失的多模态情感分析方法,其特征在于,包括:获取带有不确定缺失的多模态数据,包括三种模态:文本、视觉和音频;通过训练后的多模态情感分析网络处理所述三种模态数据,以生成并输出最终的情感分类;其中,所述多模态情感分析网络包括模态翻译模块,所述模态翻译模块是基于多头自注意力机制提取三种模态数据的单模态特征,并使用Transformer解码器对Transformer编码器进行监督,使视觉特征和音频特征逼近文本特征,从而将视觉特征和音频特征翻译成文本特征。2.如权利要求1所述的面向不确定模态缺失的多模态情感分析方法,其特征在于,所述基于多头自注意力机制提取三种模态数据的单模态特征,具体为:使用Transformer编码器提取每种模态的上下文特征;对提取的上下文特征进行残差连接,并进行归一化;对归一化之后的上下文特征进行线性变换,得到三种模态数据的单模态特征。3.如权利要求1所述的面向不确定模态缺失的多模态情感分析方法,其特征在于,所述使用Transformer解码器对Transformer编码器进行监督,具体为:以文本特征作为多头注意力机制的Quary、待翻译的模态特征作为多头注意力机制的Key和Value,构建Transformer解码器;通过待翻译的模态特征与Transformer解码器输出的文本特征之间的翻译损失,监督Transformer编码器将待翻译的模态特征向文本特征进行翻译。4.如权利要求1所述的面向不确定模态缺失的多模态情感分析方法,其特征在于,所述多模态情感分析网络还包括公共空间投影模块;所述公共空间投影模块是对模态翻译后的三种模态特征进行线性变换,获取各模态的自相关公共空间,将其融合为缺失模态的联合特征。5.如权利要求1所述的面向不确定模态缺失的多模态情感分析方法,其特征在于,所述多模态情感分析网络还包括预训练模块和Transformer编码器模块;所述预训练模块,使用所有完整的模态数据对多模态情感分析网络进行预...

【专利技术属性】
技术研发人员:刘志中周斌初佃辉孟令强孙宇航
申请(专利权)人:烟台大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1