当前位置: 首页 > 专利查询>浙江大学专利>正文

一种融合知识图谱的跨模态情感分析方法和装置制造方法及图纸

技术编号:39053132 阅读:7 留言:0更新日期:2023-10-12 19:45
本发明专利技术公开了一种融合知识图谱的跨模态情感分析方法和装置,包括以下步骤:采用预训练模型从图像中提取文本形式的图像字幕和图像层面的第一多模态知识图谱;从描述文本中提取需要情感分析的目标主体,并为目标主体构建掩码模板;通过预训练模型将描述文本转换成文本层面的知识图谱;通过实体节点对齐的方式将第一多模态知识图谱和知识图谱扩展成传递图像和文本联系的第二多模态知识图谱;将第二多模态知识图谱中的三元组进行序列化展平得到序列化三元组,并采用可视化矩阵对序列化三元组进行结构信息的补充;利用包括编码器、解码器以及全连接层的情感分析模型进行情感分析。该方法和装置使得在多模态情感分类任务中取得了更好的表现。得了更好的表现。得了更好的表现。

【技术实现步骤摘要】
一种融合知识图谱的跨模态情感分析方法和装置


[0001]本专利技术属于跨模态情感分类领域,具体涉及一种融合知识图谱的跨模态情感分析方法和装置。

技术介绍

[0002]在多模态情感分类中,多模态情感学习的目的在于模仿人类对复杂的多模态信息进行分析理解,对于给定的图像、文本信息,对情感主体进行情感分类,这有利于应用在社交网络多模态推文情感检测的场景。
[0003]文献Xu,N.,Mao,W.,Chen,G.:Multi

interactive memory network for aspect based multimodal sentiment analysis.In:AAAI.pp.371

378.AAAI Press(2019)和文献Ju,X.,Zhang,D.,Xiao,R.,Li,J.,Li,S.,Zhang,M.,Zhou,G.:Joint multi

modal aspect

sentiment analysis with auxiliary cross

modal relation detection.In:EMNLP(1).pp.4395

4405.Association for Computational Linguistics(2021)公开的技术方案中,均是多模态情感分类将图像和文本分别通过各自的编码器得到一个图像和文本的特征表示,然后将二者通过简单的连接或者映射得到多模态信息的整体表示用于情感分类。这些方法不可避免的会过拟合,并且不利于对图像和文本的特征进行融合表征和交互,因此导致情感分类本身的效果较差。
[0004]近年来,出现了一些基于预训练和注意力的方法,如文献Ling,Y.,Yu,J.,Xia,R.:Vision

language pre

training for multimodal aspect

based sentiment analysis.In:ACL(1).pp.2149

2159.Association for Computational Linguistics(2022)、Wang,J.,Liu,Z.,Sheng,V.S.,Song,Y.,Qiu,C.:Saliencybert:Recurrent attention network for target

oriented multimodal sentiment classification.In:PRCV(3).Lecture Notes in Computer Science,vol.13021,pp.3

15.Springer(2021)公开的技术方案方法。这类方法可以很大程度上促进文本和图像两个模态的交互,可以一定程度上提升模型的表现能力。而预训练方法本身需要大量的数据和大量的人力标注,难度会比较大,成本较高。

技术实现思路

[0005]鉴于上述,本专利技术的目的是提供一种融合知识图谱的跨模态情感分析方法和装置,在进一步捕捉图像的细粒度信息和构建图像、文本、目标主体三者联系的基础上,使得在多模态情感分类任务中取得了更好的表现。
[0006]为实现以上专利技术目的,实施例提供的一种融合知识图谱的跨模态情感分析方法,包括以下步骤:
[0007]采用预训练模型从图像中提取文本形式的图像字幕和图像层面的第一多模态知识图谱;
[0008]从描述文本中提取需要情感分析的目标主体,并为目标主体构建掩码模板;
[0009]通过预训练模型将描述文本转换成文本层面的知识图谱;
[0010]通过实体节点对齐的方式将第一多模态知识图谱和知识图谱扩展成传递图像和文本联系的第二多模态知识图谱;
[0011]将第二多模态知识图谱中的三元组进行序列化展平得到序列化三元组,并采用可视化矩阵对序列化三元组进行结构信息的补充;
[0012]利用包括编码器、解码器以及全连接层的情感分析模型进行情感分析,具体为:编码器结合可视化矩阵编码序列化三元组、描述文本以及图像字幕以得到输出特征,解码器依据编码器的输出特征和掩码模板来解码掩码位置表示,全连接层对掩码位置表示进行连接映射得到主体情感表示。
[0013]优选地,所述预训练模型采用图片转文本的模型,通过从图像中提取全局特征后,将全局特征转换成为文本形式的图像字幕;
[0014]所述预训练模型采用图片场景图提取模型,将图片转化成具有结构化信息的第一多模态知识图谱,其中,第一多模态知识图谱包含两种形式的三元组,一种是实体和实体之间的三元组关系,另一种是子图像和实体之间的三元组关系,子图像为将输入图像中分割得到的图像块。
[0015]优选地,所述预训练模型采用文本场景图提取模型,将描述文本转化成具有结构化信息的知识图谱,其中知识图谱建立了文本中关键实体之间的关系。
[0016]优选地,所述通过实体节点对齐的方式将第一多模态知识图谱和知识图谱扩展成传递图像和文本联系的第二多模态知识图谱,包括:
[0017]当第一多模态知识图谱和知识图谱中的两节点的文本语义相似度大于设定阈值,则将两个节点合并为1个新节点,从而得到传递图像和文本联系的多模态知识图谱,其中设定阈值优选为0.9。
[0018]优选地,所述将第二多模态知识图谱中的三元组进行序列化展平得到序列化三元组,包括:
[0019]将每个三元组的头实体、关系、尾实体用逗号连接的方式拼成一个文本序列形式的序列化三元组,不同三元组之间用特殊标志位“<ts>”分隔,对于第二多模态知识图谱中的子图像,用特殊标志位“<img>”表示。
[0020]优选地,所述可视化矩阵通过定义序列化三元组中元素之间的相关性,实现结构化信息的补充;
[0021]定义规则为:输入编码器的序列化三元组中,同一个三元组中的元素彼此可见,各个三元组中的共享实体彼此可见,而其余的三元组不可见;输入编码器中的描述文本、图像字幕以及其他特殊标记应彼此可见。
[0022]优选地,所述编码器结合可视化矩阵编码序列化三元组、描述文本以及图像字幕以得到输出特征,包括:
[0023]将码序列化三元组、描述文本以及图像字幕中每部分都转换为嵌入向量,并将嵌入向量后输入至编码器中,其中嵌入向量包括特征嵌入、位置嵌入、类型嵌入;
[0024]在编码器中,对于通过文本标志位标记的文本通过文本编码器进行编码,对于通过特殊标志“<img>”标记的子图像通过图像编码器进行编码。
[0025]优选地,所述全连接层对掩码位置表示进行连接映射得到主体情感表示,用公式
表示为:
[0026]p(y∣∣H
[m])=softmax(θ
Linear本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合知识图谱的跨模态情感分析方法,其特征在于,包括以下步骤:采用预训练模型从图像中提取文本形式的图像字幕和图像层面的第一多模态知识图谱;从描述文本中提取需要情感分析的目标主体,并为目标主体构建掩码模板;通过预训练模型将描述文本转换成文本层面的知识图谱;通过实体节点对齐的方式将第一多模态知识图谱和知识图谱扩展成传递图像和文本联系的第二多模态知识图谱;将第二多模态知识图谱中的三元组进行序列化展平得到序列化三元组,并采用可视化矩阵对序列化三元组进行结构信息的补充;利用包括编码器、解码器以及全连接层的情感分析模型进行情感分析,具体为:编码器结合可视化矩阵编码序列化三元组、描述文本以及图像字幕以得到输出特征,解码器依据编码器的输出特征和掩码模板来解码掩码位置表示,全连接层对掩码位置表示进行连接映射得到主体情感表示。2.根据权利要求1所述的融合知识图谱的跨模态情感分析方法,其特征在于,所述预训练模型采用图片转文本的模型,通过从图像中提取全局特征后,将全局特征转换成为文本形式的图像字幕;所述预训练模型采用图片场景图提取模型,将图片转化成具有结构化信息的第一多模态知识图谱,其中,第一多模态知识图谱包含两种形式的三元组,一种是实体和实体之间的三元组关系,另一种是子图像和实体之间的三元组关系,子图像为将输入图像中分割得到的图像块。3.根据权利要求1所述的融合知识图谱的跨模态情感分析方法,其特征在于,所述预训练模型采用文本场景图提取模型,将描述文本转化成具有结构化信息的知识图谱,其中知识图谱建立了文本中关键实体之间的关系。4.根据权利要求1所述的融合知识图谱的跨模态情感分析方法,其特征在于,所述通过实体节点对齐的方式将第一多模态知识图谱和知识图谱扩展成传递图像和文本联系的第二多模态知识图谱,包括:当第一多模态知识图谱和知识图谱中的两节点的文本语义相似度大于设定阈值,则将两个节点合并为1个新节点,从而得到传递图像和文本联系的多模态知识图谱,其中设定阈值优选为0.9。5.根据权利要求1所述的融合知识图谱的跨模态情感分析方法,其特征在于,所述将第二多模态知识图谱中的三元组进行序列化展平得到序列化三元组,包括:将每个三元组的头实体、关系、尾实体用逗号连接的方式拼成一个文本序列形式的序列化三元组,不同三元组之间用特殊标志位“<ts>”分隔,对于第二多模态知识图谱中的子图像,用特殊标志位“<img>”表示。6.根据权利要求1所述的融合知识图谱的跨模态情感分析方法,其特征在于,所述可视化矩阵通过定义序列化三元组中元素之间的相关性,实现结构化信息的补充;定义规则为:输入编码器的序列化三元组中,同一个三元组中的元素彼此可见,各个三元组中的共享实体彼此可见,而其余的三元组不可见;输入编码器中的描述文本、图像字幕以及其他特殊标记应彼此可见。
7...

【专利技术属性】
技术研发人员:陈华钧黄雨峰陈卓张文
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1