一种基于注意力网络的跨模态情感分析方法技术

技术编号:37303602 阅读:27 留言:0更新日期:2023-04-21 22:48
本发明专利技术属于自然语言处理、计算机视觉领域及情感分析技术领域,公开了一种基于注意力网络的跨模态情感分析方法,包括:步骤1:提取图片特征,图片文本特征以及方面特征;步骤2:提取的图片文本特征进入模态更新层,每个所述模态更新层包括一个模态对齐模块和两个模态更新模块,每个模态在所述模态对齐模块内对齐,对齐后进入所述模态更新模块,通过利用不同模态的相关性逐步补充,最终获得交互后的图片特征和文本特征;步骤3:将步图片特征和文本特征采用自注意力机制进行多模态融合;步骤4:将图片特征和图片文本特征与多模态特征进行concat操作,进行情感预测。本发明专利技术充分利用了跨模态间的信息交互,有助于提高情感预测的准确性。确性。

【技术实现步骤摘要】
一种基于注意力网络的跨模态情感分析方法


[0001]本专利技术涉及自然语言处理、计算机视觉领域及情感分析
,具体的说是涉及一种基于注意力网络的跨模态情感分析方法。

技术介绍

[0002]随着各类网络社交平台以及网络技术的发展,用户在网络上发表言论的方式更加多样化,越来越多的用户选择用视频、图片或者文章来表达自己的情感和观点。如何分析这些多模态信息当中蕴含的情感倾向、舆论导向成为情感分析领域所面临的挑战。然而,由于多模态数据的异构性和异步性,融合多模态信息并不容易。就异构性而言,不同模态存在不同的特征空间中。就异步性而言,不同模态的时间序列数据采样率不一致导致无法获得不同模态之间的最佳映射。现在已经有许多关于多模态分析的研究,具体方法可以归纳为以下两类:一种是采用跨模态注意力来提供不同模态之间的软映射,从而对多模式数据的异步性进行建模。然而,这类方法没有考虑多模态数据的异质性。另一类则考虑多模态数据异质性。这一类别中的方法将每个模态分为模态的共享部分和模态的私有部分,由不同的神经网络表示。这些方法的局限性在于它们没有考虑不同模式之间的异步性。

技术实现思路

[0003]为了解决多模态异构性和异质性的问题,本专利技术提出了一种基于注意力网络的跨模态情感分析方法,采用模态对齐模块以及模态更新模块,并利用注意力机制,进行跨模态交互,从而提高多模态情感分析的准确性。
[0004]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0005]本专利技术是一种基于注意力网络的跨模态情感分析方法,具体包括以下步骤:
[0006]步骤1:提取输入图片文本对应的图片特征和图片文本特征;
[0007]步骤2:提取的图片文本特征进入模态更新层,每个所述模态更新层包括一个用于对齐表示空间的模态对齐模块和两个模态更新模块,每个模态在所述模态对齐模块内对齐,对齐后进入所述模态更新模块,通过利用不同模态的相关性逐步补充,最终获得交互后的图片特征和文本特征;
[0008]步骤3:将步骤2中所获得的交互后的图片特征和文本特征采用自注意力机制进行多模态融合,得到多模态特征;
[0009]步骤4:将步骤1中的图片特征和图片文本特征与步骤3中的融合后的多模态特征进行concat操作,进行情感预测。
[0010]优选的:步骤2具体包括如下步骤:
[0011]步骤2.1:模态对齐模块在模态交互前对齐不同模态的特征空间,得到多模态信息;
[0012]步骤2.2:对齐后的多模态信息进入模态更新模块,逐步增强每个模态,每个模态更新层包含两个模态更新模块和即文本更新模块和图片更新模块,为了使文本和视
觉特征更专注于给定方面的信息部分并抑制不太重要的部分,在模态更新层的第一层采用了方面引导的注意力方法,具体过程如下:
[0013][0014]其中代表生成的目标模态的隐藏表征,I
A
代表方面特征向量,b
(1)
代表可学习参数,表示可变参数,表示模态向量;
[0015]计算归一化注意权重:
[0016][0017]使用注意力权重对目标模态的特征向量进行加权平均,得到新的目标模态向量
[0018]步骤2.3:为了捕捉不同模态间的双向交互,增强模态间的交互,模态更新模块引入了跨模态注意力机制以及自注意力机制,增强目标模态的具体过程如下:
[0019][0020]其中,*代表要增强的目标模态,α则代表补充模态,如果目标模态是文本,那补充模态则是图片,公式如下:
[0021][0022][0023]其中,SA
mul
,CMA
mul
和Att分表代表多头自注意力机制、多头跨模态注意力机制和归一化函数以及加性注意力机制,为了更好的融合图片和文本模态,本专利技术使用加性注意力机制,具体表示如下:
[0024][0025][0026][0027]其中G,W
c
,b
c
代表可学习参数,每个模态更新模块的权重都是通过加性注意力机制动态计算获得,从而达到两个模态间信息交互的目的,最终获得曾强后的多模态序列和
[0028]为了学习多模态特征的深度抽象表征,采用GRU将交互注意力机制后的结果与当前层的输入结合起来,在第n层中首先使用跨模态注意力机制以及自注意力机制获得增强后的多模态序列,然后使用GRU获得新的文本和图片特征,其中,n不包括第一层,第一层采用方面引导注意力机制,具体过程如下:
[0029][0030]其中:SA
mul
代表多头自注意力机制,为目标模态向量,n代表层数。
[0031]优选的:在所述步骤3,将步骤2中所获得的图片特征和文本特征采用自注意力机制进行多模态融合,具体表示如下:
[0032][0033]其中:均表示多模态序列,FC是融合多模态函数。
[0034]优选的:步骤4具体为:将步骤1和步骤3中的文本特征、图片特征和融合后的多模态特征进行concat操作得到包含三种特征表示E
mul
作为输入数据:
[0035]E
mul
=concat(X
mul
,X
L
,X
V
)
[0036]使用全连接网络对数据进行特征融合,并在最后一层使用softmax分类器进行情感预测,情感预测计算公式如下:
[0037]P=softmax(W
m
E+b
m
)
[0038]其中W
m
代表全连接层的权重,b
m
代表偏置,P代表情感预测。
[0039]优选的:采用VGG16网络提取图片特征的具体过程如下:
[0040]步骤11:输入:输入224*224*3的图像像素矩阵;
[0041]步骤12:卷积池化:输入的图像像素矩阵经过5轮卷积池化操作,每轮卷积核大小均为3*3*w,w代表矩阵深度,卷积之后通过激活函数ReLU得到多个特征图,并且采用最大池化筛选局部特征,其中卷积计算公式如下:
[0042]f
j
=R(X
i
*K
j
+b)
[0043]其中R代表ReLU激活函数,*代表卷积操作,b代表偏置项,K
j
代表不同矩阵深度的卷积核;
[0044]步骤13:全连接:经过三次全连接得到1*1*1000的图像特征表示向量;
[0045]步骤14:最终通过预训练好的VGG16网络获取图片特征向量用X
Vp
={X
V1
,X
V2

X
Vn
}表示。
[0046]优选的:步骤1中采用Bert预训练模型获取图片文本特征,具体过程如下:
[0047]步骤21:文本预处理:针对网络用语中无意义的词汇、符号进行预处理,将不影响判断文本情感倾向的词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力网络的跨模态情感分析方法,其特征在于:所述跨模态情感分析方法包括以下步骤:步骤1:提取输入图片文本对应的图片特征,图片文本特征以及给定方面短语的方面特征;步骤2:提取的图片文本特征进入模态更新层,每个所述模态更新层包括一个用于对齐表示空间的模态对齐模块和两个模态更新模块,每个模态在所述模态对齐模块内对齐,对齐后进入所述模态更新模块,通过利用不同模态的相关性逐步补充,最终获得交互后的图片特征和文本特征;步骤3:将步骤2中所获得的交互后的图片特征和文本特征采用自注意力机制进行多模态融合,得到多模态特征;步骤4:将步骤1中的图片特征和图片文本特征与步骤3中的融合后的多模态特征进行concat操作,进行情感预测。2.根据权利要求书1所述的一种基于注意力网络的跨模态情感分析方法,其特征在于:所述步骤2具体包括如下步骤:步骤2.1:模态对齐模块在模态交互前对齐不同模态的特征空间,得到多模态信息;步骤2.2:对齐后的多模态信息进入模态更新模块,逐步增强每个模态,每个模态更新层包含两个模态更新模块和即文本更新模块和图片更新模块,在模态更新层的第一层采用了方面引导的注意力方法,具体过程如下:其中代表生成的目标模态的隐藏表征,I
A
代表方面特征向量,b
(1)
代表可学习参数,表示可变参数,表示模态向量;计算归一化注意权重:使用注意力权重对目标模态的特征向量进行加权平均,得到新的目标模态向量步骤2.3:为了捕捉不同模态间的双向交互,增强模态间的交互,模态更新模块引入了跨模态注意力机制以及自注意力机制,增强目标模态的具体过程如下:其中,*代表要增强的目标模态,α则代表补充模态,如果目标模态是文本,那补充模态则是图片,公式如下:则是图片,公式如下:
其中,SA
mul
,CMA
mul
和Att分表代表多头自注意力机制、多头跨模态注意力机制和归一化函数以及加性注意力机制,使用加性注意力机制,具体表示如下:函数以及加性注意力机制,使用加性注意力机制,具体表示如下:函数以及加性注意力机制,使用加性注意力机制,具体表示如下:其中G,W
c
,b
c
代表可学习参数,每个模态更新模块的权重都是通过加性注意力机制动态计算获得,从而达到两个模态间信息交互的目的,最终获得曾强后的多模态序列和3.根据权利要求书2所述的一种基于注意力网络的跨模态情感分析方法,其特征在于:所述步骤2.3中,为了学习多模态特征的深度抽象表征,采用GRU将交互注意力机制后的结果与当前层的输入结合起来,在第n层中首先使用跨模态注意力机制以及自注意力机制获得增强后的多模态序列,然后使用GRU获得新的文本和图片特征,具体过程如下:其中:SA
mul
代表多头自注意力机制,为目标模态向量,n代表层数。4.根据权利要求书1所述的一种基于注意力网络的跨模态情感分析方法,其特征在于:在所述步骤3,将步骤2中所获得的图片特征和文本特征采用自注意力机制进行多模态融合,具体表示如下:其中:均表示多模态序列,FC是融合多模态函数。5.根据权利要求书1所述的一种基于注意力网络的跨模态情感分析方法,其特征...

【专利技术属性】
技术研发人员:章韵王梦婷
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1