一种基于混合融合的跨模态图文情感分析方法技术

技术编号：40602977 阅读：11 留言：0更新日期：2024-03-12 22:08

本发明专利技术公开了一种基于混合融合的跨模态图文情感分析方法，属于自然语言处理与计算机视觉技术领域，包括以下步骤：单模态的提取；跨模态特征融合；注意力机制及组合池化处理；局部到整体转化；决策融合与映射。本发明专利技术提出跨模态注意力机制的图文情感分析模型，先将两种模态的数据输入到全连接层中，将其映射到一个公共空间，使得模型减少冗余信息的影响之后，再通过模态交互获取具有图文相关联系程度的跨模态情感特征；通过注意力机制增强关键的情感特征，加强了特征融合的有效性；提出联合特征融合和决策融合的混合融合模型，捕捉不同模态的相关性，更加全面综合的利用信息，提高决策的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理与计算机视觉，具体涉及一种基于混合融合的跨模态图文情感分析方法。

技术介绍

1、情感分析是一种通过计算机技术来识别和分析数据中所包含的情感信息的任务。这项技术在许多应用中具有广泛的用途，例如品牌管理、市场调研、舆情监测和用户反馈分析等。通过情感分析，企业可以了解消费者对其产品或服务的态度和情感反应，从而做出更好的决策和改进。

2、随着互联网技术的不断发展，越来越多的人以图片和文本相结合的方式在抖音、小红书、微博等社交媒体中发表个人观点，传统的情感分析主要基于文本数据，然而单一的文本数据的情感分析需要理解文本中的语义和上下文信息，但自然语言的表达方式非常复杂多样，有时情感可能被隐含或间接的表达，而且不同人对于相同文本的情感倾向可能存在差异。在视觉情感分析中，情感是人对视觉元素所表达情感的主观体验。例如，一张展示一个人在灰蒙蒙的阴雨天下撑着伞走在马路上的图片，通过图片的颜色、对象、场景等可以推测其表达的可能是消极情绪。这样图片的信息可以对文本表达内容进行补充，综合分析情感信息，进而提高情感分析的准确性。因此以图文相结合的方式作为情感分析的数据来源对情感分析具有重要的意义，是当前具有一定价值的研究方向。

3、多模态情感分析的早期研究大多采取特征融合或决策融合的方式。特征融合是分别提取不同模态的情感特征，通过直接或加权拼接的方式进行融合。如cnn-multi模型：cai等人基于cnn分别设计了提取文本特征的文本cnn、提取图像特征的图像cnn以及将图像特征和文本特征拼接作为输入的mult

4、以上两种方式存在以下问题：(1)由于两种模态的信息存在不必要、重复或多余的信息，这些信息并不提供新的或有用的内容，而只是重复了已经出现过的信息，冗余信息可能会导致信息传递的低效性和重复性，使得模型难以挖掘有效信息；(2)简单的特征拼接进行特征融合没有将不同模态的信息进行有效的交互，增加了计算的复杂度，也没有给具有情感信息的特征分配较高的权重使模型更加关注具有明显情感倾向的信息；(3)单一的决策结果可能存在误差或不可靠性，而且由于模型可能无法捕捉到数据的复杂性和多样性，使得单一决策可能无法提供全面、准确的解决方案，忽略了其他可能的角度和因素。为此，提出一种基于混合融合的跨模态图文情感分析方法。

技术实现思路

1、本专利技术所要解决的技术问题在于：针对图像、文本数据具有异构性以及现有技术中多模态融合的方法所存在的问题，进而实现模态之间的融合、跨模态建模、权衡不同模态在任务上的贡献比重等，提供了一种基于混合融合的跨模态图文情感分析方法。

2、本专利技术是通过以下技术方案解决上述技术问题的，本专利技术包括以下步骤：

3、s1：单模态向量的提取

4、提取文本信息与图片信息，对应获得文本与图片的特征向量；

5、s2：跨模态特征融合

6、将两种模态映射到同一维度，使步骤s1中两种模态特征向量相互关联，得到以图像信息为主的图文交互的特征向量以及以文本信息为主的图文交互的特征向量；

7、s3：注意力机制及组合池化处理

8、将步骤s2中获取的两种特征向量输入跨模态注意力机制，经过跨模态注意力机制处理之后，使用组合池化对特征进行筛选；

9、s4：局部到整体转化

10、将两个单模态特征向量经过公共空间的映射和注意力机制输出的两个单模态向量以及s3中输出的向量进行局部到整体的转化；

11、s5：决策融合与映射

12、分别将两个单模态和跨模态的输出进行分类，将三个分类结果分配相应的权重进行决策融合，从而获得最终的预测结果。

13、更进一步地，在所述步骤s1中，使用roberta预训练模型提取文本信息，获得文本的特征向量，对于输入的文本序列text＝{t1,t2,...,tn}，其中n表示文本长度，通过roberta预训练模型获得文本的嵌入表示，公式如下：

14、

15、更进一步地，在所述步骤s1中，采用vit模型获取图片pj的特征向量公式如下：

16、

17、更进一步地，在所述步骤s2中，具体处理过程如下：

18、s21：将两种模态映射到同一维度，使步骤s1中两种模态特征向量相互关联，公式如下：

19、

20、

21、其中，wt、wti、wv、wvj、bt、bv表示全连接层可学习的权重矩阵和偏置，进而获得一个表示图文不同特征之间相关度得分的相似度矩阵c；

22、s22：将相似度矩阵c输入到全连接层后，通过激活函数获得矩阵o；

23、s23：将图像特征向量vj与矩阵o点乘获得图文交互的特征向量，然后将交互后的特征通过残差连接处理，从而得到一个以图像信息为主的图文交互的特征向量vj*，同理获得一个以文本信息为主的图文交互的特征向量ti*。

24、更进一步地，在所述步骤s22中，相似度矩阵c与矩阵o如下：

25、c＝(tiwic)(vjwjc)t

26、o＝sigmoid(wcoc+bco)

27、其中，wic、wjc是分别表示将ti、vj进行线性转化的全连接层可学习的权重矩阵，wco、bco为c线性转化的全连接层可学习参数的权重矩阵和偏置，ti为从公共空间输出的文本特征向量，vj为从公共空间输出的图像特征向量。

28、更进一步地，在所述步骤s23中，以图像信息为主的图文交互的特征向量vj*以及以文本信息为主的图文交互的特征向量ti*具体表示如下：

29、

30、

31、更进一步地，在所述本文档来自技高网...

【技术保护点】

1.一种基于混合融合的跨模态图文情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S1中，使用RoBERTa预训练模型提取文本信息，获得文本的特征向量，对于输入的文本序列text＝{T1,T2,...,Tn}，其中n表示文本长度，通过RoBERTa预训练模型获得文本的嵌入表示，公式如下：

3.根据权利要求1所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S1中，采用ViT模型获取图片pj的特征向量公式如下：

4.根据权利要求1所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S2中，具体处理过程如下：

5.根据权利要求4所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S22中，相似度矩阵C与矩阵O如下：

6.根据权利要求5所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S23中，以图像信息为主的图文交互的特征向量vj*以及以文本信息为主的图文交互的特征向量ti*具体表示如下：

7.根据权利要求6所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S3中，具体包括以下处理过程：

8.根据权利要求7所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S4中，使用一维卷积提取局部特征映射到全局特征获取关键特征，实现特征降维，公式如下：

9.根据权利要求8所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤S5中，具体包括以下处理过程：

...

【技术特征摘要】

1.一种基于混合融合的跨模态图文情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤s1中，使用roberta预训练模型提取文本信息，获得文本的特征向量，对于输入的文本序列text＝{t1,t2,...,tn}，其中n表示文本长度，通过roberta预训练模型获得文本的嵌入表示，公式如下：

3.根据权利要求1所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤s1中，采用vit模型获取图片pj的特征向量公式如下：

4.根据权利要求1所述的一种基于混合融合的跨模态图文情感分析方法，其特征在于，在所述步骤s2中，具体处理过程如下：

5.根据权利要求4所述的一种基于混合融合的跨模态图文情...

【专利技术属性】
技术研发人员：袁志祥，杜姝敏，
申请(专利权)人：安徽工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人