当前位置: 首页 > 专利查询>中南大学专利>正文

基于多视图CLIP的多模态讽刺意图识别方法、装置和设备制造方法及图纸

技术编号:38742433 阅读:15 留言:0更新日期:2023-09-08 23:26
本发明专利技术公开了一种基于多视图CLIP的多模态讽刺意图识别方法、装置和设备,方法包括:对数据元组中的文本信息和图像信息均依次编码和解码;其中,采用CLIP模型编码分别得到文本和图像各自的向量表示,解码分别得到基于文本视图和图像视图的讽刺得分分布;将编码得到的文本和图像各自向量表示拼接后,喂入transformer进行模态融合,然后采用key

【技术实现步骤摘要】
基于多视图CLIP的多模态讽刺意图识别方法、装置和设备


[0001]本专利技术属于数据识别
,特别涉及一种基于多视图CLIP的多模态讽刺意图识别方法、装置和设备。

技术介绍

[0002]讽刺是一种通过使用反语、夸张和比喻等修辞手法来表达强烈的不满、反对和嘲讽等情绪的语言方法。讽刺在人类社会中有着悠久的历史,从古希腊时期的戏剧到现代的卡通和互联网段子,讽刺一直是人们表达批判的重要方式。但是,由于讽刺所意图表达的真实情感可能与表面上的言辞相反,导致传统的情感分析方法在分析讽刺文本时可能出现错误的情感分类,从而影响其准确性。因此,讽刺意图识别能够帮助识别信息所包含的真实情绪,有助于情感分析和观点挖掘等任务。
[0003]讽刺的含义通常需要通过语境来进行理解,而语境常常是多层次的、模糊的和具有歧义的。这使得讽刺很难被准确地理解和识别。此外,讽刺中常使用的修辞手法也增加了识别讽刺的难度。近年来,由于社交媒体的快速发展,旨在识别多模态场景中的讽刺情绪的多模态讽刺识别引起了越来越多的研究关注。不同于传统的基于文本的讽刺识别方法,多模态讽刺识别综合利用多种模态的信息,进行特征融合,适应多样性的讽刺表现形式,在讽刺识别任务中拥有更加准确和全面的识别性能。
[0004]随着深度神经网络的快速发展,多模态讽刺识别取得了显著的成果。目前存在多种多模态讽刺识别技术,包括显式地连接文本特征和图像特征、隐式地采用注意力机制合并来自不同模式的特征、基于图的方法等。然而,这些模型的结果是否忠实地反映了其多模态理解能力仍然存疑。事实上,当一个仅文本模态模型应用于多模态讽刺识别时,其性能显著超过了当前最先进的多模态模型。这说明,当前的多模态讽刺识别模型的性能可能在很大程度上依赖于文本数据中的虚假线索,而不是通过真正捕获不同模式之间的关系来真实地捕捉讽刺的本质特征。

技术实现思路

[0005]本专利技术提供一种基于多视图CLIP的多模态讽刺意图识别方法、装置和设备,利用文本、图像和图像

文本交互多个视角提供的信息来捕捉其中的交互关系,完成多模态讽刺意图识别,且识别准确率高。
[0006]为实现上述技术目的,本专利技术采用如下技术方案:
[0007]一种基于多视图CLIP的多模态讽刺意图识别方法,包括:
[0008]步骤1,获取包括文本信息和图像信息的数据元组,对数据元组中的文本信息和图像信息均依次进行编码和解码;其中,采用CLIP模型编码分别得到文本信息向量表示和图像信息向量表示,解码分别得到基于文本视图和图像视图的讽刺得分分布;
[0009]步骤2,将步骤1编码得到的文本信息向量表示和图像信息向量表示进行拼接后,并将拼接向量喂入transformer进行模态融合,然后采用key

less注意力机制确定其注意
力权重,再解码得到基于文本与图像交互视图的讽刺得分分布;
[0010]步骤3,将步骤1和2中得到的基于文本视图、基于图像视图以及基于文本与图像交互视图的3个讽刺得分分布进行聚合,并根据聚合结果获得数据元组的讽刺意图识别结果。
[0011]进一步地,采用CLIP模型对文本信息编码,获得文本信息的向量表示T,如公式(1)所示:
[0012][0013]其中,x为数据元组中的文本信息,表示CLIP模型中的文本编码器,n为文本x的序列长度,t
i
为x中第i个单词的向量表示,t
CLS
为整个文本x的语义信息的向量表示;
[0014]使用线性分类器将t
CLS
进行线性变换后映射得到基于文本视图的讽刺得分分布y
t
,如公式(2)所示:
[0015]y
t
=softmax(W
t
t
CLS
+b
t
)
ꢀꢀ
(2)
[0016]其中,W
t
和b
t
分别为用于文本语义信息t
CLS
解码的线性分类器的权重矩阵和偏置参数。
[0017]进一步地,采用CLIP模型对图像信息编码,获得图像信息的向量表示I,如公式(3)所示:
[0018][0019]其中,y为数据元组中的整个图像信息,v
CLS
为整个图像的向量表示,m为图像y的块数,v
i
为图像的第i个块的向量表示;
[0020]使用线性分类器将v
CLS
进行线性变换后映射得到基于图像视图的讽刺得分分布y
v
,如公式(4)所示:
[0021]y
v
=softmax(W
v
v
CLS
+b
v
)
ꢀꢀ
(4)
[0022]其中,W
v
和b
v
分别为用于图像语义信息v
CLS
解码的线性分类器的权重矩阵和偏置参数。
[0023]进一步地,步骤2包括:
[0024]首先,将编码得到的文本信息向量表示和图像信息向量表示进行拼接,得到复合图像和文本信息的向量F,即:
[0025]F=(v
CLS
,v1,

,v
m
,t1,

,t
n
,t
CLS
)=Concat(T,I)
[0026]其中,T,I分别为文本信息向量表示和图像信息向量表示,Concat(T,I)表示拼接操作;n为文本x的序列长度,t
i
为文本信息中第i个单词的向量表示,t
CLS
为整个文本x的语义信息的向量表示;v
CLS
为整个图像的向量表示,m为图像y的块数,v
i
为图像的第i个块的向量表示;
[0027]然后,利用transformer为复合特征向量F进行特征融合,其内部的自注意力机制将F经过不同的线性变换,分别得到相应的查询矩阵Q、键矩阵K和值矩阵V,并由此进一步得到更新后的向量如公式(5)所示:
[0028][0029]其中,d
k
是经过线性变换映射到K和V的维度;
[0030]在得到更新后的图像与文本信息复合的特征向量
后,使用key

less注意力机制对和进一步融合,得到文本与图像交互的特征向量f,如公式(6)、公式(7)所示:
[0031][0032][0033]其中,p
t
和p
v
分别为和对应的注意力权重,W和b分别为线性分类器的权重矩阵和偏置参数;
[0034]最后,对文本与图像交互的特征向量f进行解码,即对f进行线性变换,映射得到基于文本与图像交互视图的讽刺识别结果y
f
,如公式(8)所示:
[0035]y
f...

【技术保护点】

【技术特征摘要】
1.一种基于多视图CLIP的多模态讽刺意图识别方法,其特征在于,包括:步骤1,获取包括文本信息和图像信息的数据元组,对数据元组中的文本信息和图像信息均依次进行编码和解码;其中,采用CLIP模型编码分别得到文本信息向量表示和图像信息向量表示,解码分别得到基于文本视图和图像视图的讽刺得分分布;步骤2,将步骤1编码得到的文本信息向量表示和图像信息向量表示进行拼接,并将拼接向量喂入transformer进行模态融合,然后采用key

less注意力机制确定其注意力权重,再解码得到基于文本与图像交互视图的讽刺得分分布;步骤3,将步骤1和2中得到的基于文本视图、基于图像视图以及基于文本与图像交互视图的3个讽刺得分分布进行聚合,并根据聚合结果获得数据元组的讽刺意图识别结果。2.根据权利要求1所述的讽刺意图识别方法,其特征在于,采用CLIP模型对文本信息编码,获得文本信息的向量表示T,如公式(1)所示:其中,x为数据元组中的文本信息,表示CLIP模型中的文本编码器,n为文本x的序列长度,t
i
为x中第i个单词的向量表示,t
CLS
为整个文本x的语义信息的向量表示;使用线性分类器将t
CLS
进行线性变换后映射得到基于文本视图的讽刺得分分布y
t
,如公式(2)所示:y
t
=softmax(W
t
t
CLS
+b
t
)
ꢀꢀ
(2)其中,W
t
和b
t
分别为用于文本语义信息t
CLS
解码的线性分类器的权重矩阵和偏置参数。3.根据权利要求1所述的讽刺意图识别方法,其特征在于,采用CLIP模型对图像信息编码,获得图像信息的向量表示I,如公式(3)所示:其中,y为数据元组中的整个图像信息,v
CLS
为整个图像的向量表示,m为图像y的块数,v
i
为图像的第i个块的向量表示;使用线性分类器将v
CLS
进行线性变换后映射得到基于图像视图的讽刺得分分布y
v
,如公式(4)所示:y
v
=softmax(W
v
v
CLS
+b
v
)
ꢀꢀ
(4)其中,W
v
和b
v
分别为用于图像语义信息v
CLS
解码的线性分类器的权重矩阵和偏置参数。4.根据权利要求1所述的讽刺意图识别方法,其特征在于,步骤2包括:首先,将编码得到的文本信息向量表示和图像信息向量表示进行拼接,得到复合图像和文本信息的向量F,即:F=(v
CLS
,v1,

,v
m
,t1,

,t
n
,t
CLS
)=Concat(T,I)其中,T,I分别为文本信息向量表示和图像信息向量表示,Concat(T,I)表示拼接操作;n为文本x的序列长度,t
i
为文本信息中第...

【专利技术属性】
技术研发人员:覃立波周璟轩黄仕爵陈麒光蔡晨冉张钰迪梁斌车万翔徐睿峰
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1