【技术实现步骤摘要】
基于多视图CLIP的多模态讽刺意图识别方法、装置和设备
[0001]本专利技术属于数据识别
,特别涉及一种基于多视图CLIP的多模态讽刺意图识别方法、装置和设备。
技术介绍
[0002]讽刺是一种通过使用反语、夸张和比喻等修辞手法来表达强烈的不满、反对和嘲讽等情绪的语言方法。讽刺在人类社会中有着悠久的历史,从古希腊时期的戏剧到现代的卡通和互联网段子,讽刺一直是人们表达批判的重要方式。但是,由于讽刺所意图表达的真实情感可能与表面上的言辞相反,导致传统的情感分析方法在分析讽刺文本时可能出现错误的情感分类,从而影响其准确性。因此,讽刺意图识别能够帮助识别信息所包含的真实情绪,有助于情感分析和观点挖掘等任务。
[0003]讽刺的含义通常需要通过语境来进行理解,而语境常常是多层次的、模糊的和具有歧义的。这使得讽刺很难被准确地理解和识别。此外,讽刺中常使用的修辞手法也增加了识别讽刺的难度。近年来,由于社交媒体的快速发展,旨在识别多模态场景中的讽刺情绪的多模态讽刺识别引起了越来越多的研究关注。不同于传统的基于文本的讽刺识别方法,多模态讽刺识别综合利用多种模态的信息,进行特征融合,适应多样性的讽刺表现形式,在讽刺识别任务中拥有更加准确和全面的识别性能。
[0004]随着深度神经网络的快速发展,多模态讽刺识别取得了显著的成果。目前存在多种多模态讽刺识别技术,包括显式地连接文本特征和图像特征、隐式地采用注意力机制合并来自不同模式的特征、基于图的方法等。然而,这些模型的结果是否忠实地反映了其多模态理解能力仍然存疑。事
【技术保护点】
【技术特征摘要】
1.一种基于多视图CLIP的多模态讽刺意图识别方法,其特征在于,包括:步骤1,获取包括文本信息和图像信息的数据元组,对数据元组中的文本信息和图像信息均依次进行编码和解码;其中,采用CLIP模型编码分别得到文本信息向量表示和图像信息向量表示,解码分别得到基于文本视图和图像视图的讽刺得分分布;步骤2,将步骤1编码得到的文本信息向量表示和图像信息向量表示进行拼接,并将拼接向量喂入transformer进行模态融合,然后采用key
‑
less注意力机制确定其注意力权重,再解码得到基于文本与图像交互视图的讽刺得分分布;步骤3,将步骤1和2中得到的基于文本视图、基于图像视图以及基于文本与图像交互视图的3个讽刺得分分布进行聚合,并根据聚合结果获得数据元组的讽刺意图识别结果。2.根据权利要求1所述的讽刺意图识别方法,其特征在于,采用CLIP模型对文本信息编码,获得文本信息的向量表示T,如公式(1)所示:其中,x为数据元组中的文本信息,表示CLIP模型中的文本编码器,n为文本x的序列长度,t
i
为x中第i个单词的向量表示,t
CLS
为整个文本x的语义信息的向量表示;使用线性分类器将t
CLS
进行线性变换后映射得到基于文本视图的讽刺得分分布y
t
,如公式(2)所示:y
t
=softmax(W
t
t
CLS
+b
t
)
ꢀꢀ
(2)其中,W
t
和b
t
分别为用于文本语义信息t
CLS
解码的线性分类器的权重矩阵和偏置参数。3.根据权利要求1所述的讽刺意图识别方法,其特征在于,采用CLIP模型对图像信息编码,获得图像信息的向量表示I,如公式(3)所示:其中,y为数据元组中的整个图像信息,v
CLS
为整个图像的向量表示,m为图像y的块数,v
i
为图像的第i个块的向量表示;使用线性分类器将v
CLS
进行线性变换后映射得到基于图像视图的讽刺得分分布y
v
,如公式(4)所示:y
v
=softmax(W
v
v
CLS
+b
v
)
ꢀꢀ
(4)其中,W
v
和b
v
分别为用于图像语义信息v
CLS
解码的线性分类器的权重矩阵和偏置参数。4.根据权利要求1所述的讽刺意图识别方法,其特征在于,步骤2包括:首先,将编码得到的文本信息向量表示和图像信息向量表示进行拼接,得到复合图像和文本信息的向量F,即:F=(v
CLS
,v1,
…
,v
m
,t1,
…
,t
n
,t
CLS
)=Concat(T,I)其中,T,I分别为文本信息向量表示和图像信息向量表示,Concat(T,I)表示拼接操作;n为文本x的序列长度,t
i
为文本信息中第...
【专利技术属性】
技术研发人员:覃立波,周璟轩,黄仕爵,陈麒光,蔡晨冉,张钰迪,梁斌,车万翔,徐睿峰,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。