基于图注意力网络的视觉常识推理方法及系统技术方案

技术编号:36789156 阅读:13 留言:0更新日期:2023-03-08 22:36
本发明专利技术公开了一种基于图注意力网络的视觉常识推理方法及系统,涉及计算机视觉与自然语言处理交叉技术领域,该方法包括:以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集,训练所构建的视觉常识推理模型;所述训练过程包括:获取样本图像、样本问题和样本答案候选项的视觉特征和语言特征,以视觉特征为视觉节点,基于图注意力机制,利用语义信息更新视觉特征;采用多模态融合,融合语言特征和更新后的视觉特征,获取视觉和语言的联合特征表示,以此训练视觉常识推理模型;将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果,实现准确推理,提升了视觉常识推理任务的性能。理任务的性能。理任务的性能。

【技术实现步骤摘要】
基于图注意力网络的视觉常识推理方法及系统


[0001]本专利技术属于计算机视觉与自然语言处理交叉
,尤其涉及一种基于图注意力网络的视觉常识推理方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]随着计算机视觉和自然语言处理这两大领域的快速发展,许多针对视觉相关的研究逐渐从底层特征识别转向更复杂、更智能的任务,例如图像描述、视觉问答、视频问答等,涉及了计算机视觉、自然语言处理、机器学习等多个研究领域,旨在实现对视觉内容的高层语义认知与表达。这些特定任务对于人而言,通常可以在没有任何外部辅助的情况下完成,但是对于计算机而言,完成任务却十分困难。人理解图像通常根据已有的生活常识,结合图像中的物体和场景,经过推理分析出图像的含义,而计算机理解图像局限于表层特征,缺乏图像语义层面的理解。
[0004]现有技术中,视觉常识推理(Visual Commonsense Reasoning,VCR)是一种融入常识的多模态任务,该任务不仅需要根据问题从选项中选出正确的答案,还要根据该答案选出一个合理的理由。视觉常识推理共包含三项子任务,包括:Q

A:给定自然语言问题Q,从答案候选项中选择正确的答案A;QA

R:给定自然语言问题以及该问题的答案QA,从理由候选项中选择理由R;Q

AR:包含Q

A和QA

R两项任务,需要同时选择正确的答案A和理由R。
[0005]目前,视觉常识推理任务的方法可以分为两类:基于预训练模型和基于推理模型。基于预训练模型是在视觉

语言数据集上进行预训练,使用预训练的特征表示作为该任务的嵌入特征,有效提升视觉

语言任务的性能;基于推理模型是通过整合视觉和语言特征来推断答案。虽然基于预训练模型和基于推理模型的方法,其性能优于早期的技术,但是由于它们的通用性导致系统过于复杂,并且当涉及到特定的视觉语言任务时,存在一定的语义鸿沟,导致完成视觉语言任务的性能较差。
[0006]由于任务之间的差异性,如视觉问答和视觉常识推理问题中涉及到的属性和常识概不相同,当问题需要额外的先验常识时,利用上述模型架构解决所有的视觉语言问题较为困难,推理性能较差。

技术实现思路

[0007]为解决上述现有技术的不足,本专利技术提供了一种基于图注意力网络的视觉常识推理方法及系统,通过图注意力网络对视觉节点及其相邻节点的特征进行建模,得到视觉对象间的内部关联,然后将自然语言信息融入到视觉对象的视觉特征中,通过加强视觉和语言间的交互,进一步提高模型对图像的语义理解能力,提升视觉常识推理任务的性能。
[0008]第一方面,本公开提供了一种基于图注意力网络的视觉常识推理方法,包括:
[0009]以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练
集,训练所构建的视觉常识推理模型;所述训练过程包括:
[0010]获取样本问题和样本答案候选项的语言特征,获取样本图像中视觉对象的视觉特征;
[0011]以视觉特征为视觉节点,基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征,利用样本问题和样本答案候选项的语义信息更新视觉关系特征,基于更新后的视觉关系特征更新视觉特征;
[0012]采用多模态融合,融合样本图像更新后的视觉特征、样本问题和样本答案候选项的语言特征,获取视觉和语言的联合特征表示,以此训练视觉常识推理模型;
[0013]将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果。
[0014]进一步的技术方案,所述获取样本问题和样本答案候选项的语言特征,包括:
[0015]利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入;
[0016]将提取的词嵌入输入至双向长短期记忆网络中,生成样本问题和样本答案候选项自然语言文本的语言特征。
[0017]进一步的技术方案,所述获取样本图像中视觉对象的视觉特征,包括:
[0018]利用预训练的基于ResNet101网络的目标检测模型对样本图像进行目标检测,提取出图像中多个视觉对象的视觉特征。
[0019]进一步的技术方案,所述基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征,包括:
[0020]利用共享权重矩阵对视觉节点的视觉特征分别进行线性变换,将视觉节点的视觉特征映射到一个特征子空间中,得到每个视觉节点的映射结果,将该映射结果作为每个视觉节点的视觉关系特征。
[0021]进一步的技术方案,所述利用样本问题和样本答案候选项的语义信息更新视觉关系特征,包括:
[0022]将样本问题和样本答案候选项中视觉词的词特征向量与样本图像中视觉节点的视觉关系特征连接起来,得到更新后的视觉关系特征。
[0023]进一步的技术方案,所述基于更新后的视觉关系特征更新视觉特征,包括:
[0024]基于更新后的视觉关系特征计算注意力系数;
[0025]基于注意力系数,对视觉节点的相邻视觉节点进行加权求和,得到该视觉节点融合相邻视觉节点权重特征的视觉特征。
[0026]进一步的技术方案,所述获取视觉和语言的联合特征表示,以此训练视觉常识推理模型,包括:
[0027]以设有分段线性函数的多层感知器为分类器,以视觉和语言的联合特征表示为输入,以样本答案候选项的真实标签与预测标签之间的交叉熵损失训练视觉常识推理模型。
[0028]第二方面,本公开提供了一种基于图注意力网络的视觉常识推理系统,包括:
[0029]视觉常识推理模型构建及训练模块,用于以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集,训练所构建的视觉常识推理模型;所述训练过程包括:
[0030]获取样本问题和样本答案候选项的语言特征,获取样本图像中视觉对象的视觉特征;
[0031]以视觉特征为视觉节点,基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征,利用样本问题和样本答案候选项的语义信息更新视觉关系特征,基于更新后的视觉关系特征更新视觉特征;
[0032]采用多模态融合,融合样本图像更新后的视觉特征、样本问题和样本答案候选项的语言特征,获取视觉和语言的联合特征表示,以此训练视觉常识推理模型;
[0033]推理模块,用于将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果。
[0034]第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
[0035]第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力网络的视觉常识推理方法,其特征是,包括:以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集,训练所构建的视觉常识推理模型;所述训练过程包括:获取样本问题和样本答案候选项的语言特征,获取样本图像中视觉对象的视觉特征;以视觉特征为视觉节点,基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征,利用样本问题和样本答案候选项的语义信息更新视觉关系特征,基于更新后的视觉关系特征更新视觉特征;采用多模态融合,融合样本图像更新后的视觉特征、样本问题和样本答案候选项的语言特征,获取视觉和语言的联合特征表示,以此训练视觉常识推理模型;将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果。2.如权利要求1所述的基于图注意力网络的视觉常识推理方法,其特征是,所述获取样本问题和样本答案候选项的语言特征,包括:利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入;将提取的词嵌入输入至双向长短期记忆网络中,生成样本问题和样本答案候选项自然语言文本的语言特征。3.如权利要求1所述的基于图注意力网络的视觉常识推理方法,其特征是,所述获取样本图像中视觉对象的视觉特征,包括:利用预训练的基于ResNet101网络的目标检测模型对样本图像进行目标检测,提取出图像中多个视觉对象的视觉特征。4.如权利要求1所述的基于图注意力网络的视觉常识推理方法,其特征是,所述基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征,包括:利用共享权重矩阵对视觉节点的视觉特征分别进行线性变换,将视觉节点的视觉特征映射到一个特征子空间中,得到每个视觉节点的映射结果,将该映射结果作为每个视觉节点的视觉关系特征。5.如权利要求1所述的基于图注意力网络的视觉常识推理方法,其特征是,所述利用样本问题和样本答案候选项的语义信息更新视觉关系特征,包括:将样本问题和样本答案候选项中视觉词的词特征向量与样本图像中视觉节点的视觉关系特征连接起来,得到更新后的视觉...

【专利技术属性】
技术研发人员:张文琪高永超钱恒
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1