基于知识感知注意力网络的视觉常识推理方法及系统技术方案

技术编号:36789366 阅读:16 留言:0更新日期:2023-03-08 22:37
本发明专利技术公开了一种基于知识感知注意力网络的视觉常识推理方法及系统,涉及计算机视觉与自然语言处理交叉技术领域,该方法包括:以多组互相对应的样本图像、样本问题和已标注的样本答案候选项,训练视觉常识推理模型;该训练过程包括:获取样本图像、样本问题和样本答案候选项的视觉特征和初始语境句子表示;根据视觉上下文引导以及知识嵌入,学习样本问题和样本答案候选项基于知识的句子表示以及知识感知注意向量;融合知识感知注意向量与视觉特征得到融合特征,以此训练视觉常识推理模型;将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果,实现准确推理,提升了视觉常识推理任务的性能。务的性能。务的性能。

【技术实现步骤摘要】
基于知识感知注意力网络的视觉常识推理方法及系统


[0001]本专利技术属于计算机视觉与自然语言处理交叉
,尤其涉及一种基于知识感知注意力网络的视觉常识推理方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]在由大量不同模态数据构建的多媒体世界中,不同模态的数据在具体应用的过程中具有高度相关性。单模态学习是指将信息表示为计算机可以处理的数值向量或进一步抽象为更高层的特征向量;而多模态学习旨在通过机器学习的方法,利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示,这需要将不同模态的数据嵌入到一个公共表示空间中进行对齐、比较和融合。
[0004]近年来,涌现了大量关于多模态任务的研究,这类任务更加能够反映计算机对于各类模态数据的理解能力。其中,具有代表性的任务是视觉常识推理(Visual Commonsense Reasoning,VCR)任务,视觉常识推理任务不仅需要根据图像和问题从答案候选项中选出正确的答案,还要从理由候选项中选出一个正确的理由来解释该答案。这一任务中,回答自然语言问题不仅需要对图像中的物体、行为等进行识别,还需要大量的常识知识帮助理解图像。然而,现有的视觉常识推理方法并未关注在理解图像和文本过程中起关键作用的背景信息以及隐藏在上下文之外的内容,导致视觉常识推理任务的准确性和性能较差。

技术实现思路

[0005]为解决上述现有技术的不足,本专利技术提供了一种基于知识感知注意力网络的视觉常识推理方法及系统,根据视觉上下文引导,自适应的提取问题和答案候选项中的重要信息,提取与视觉相关的候选词组,并使用知识嵌入方法将自然语言句子的初始特征进一步整合起来,学习最终的知识感知注意向量,基于融合了知识感知注意向量与视觉特征的融合特征完成视觉常识推理任务,提高视觉常识推理任务的准确率和性能。
[0006]第一方面,本公开提供了一种基于知识感知注意力网络的视觉常识推理方法,包括:
[0007]以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集,训练所构建的视觉常识推理模型;所述训练过程包括:
[0008]获取样本图像中视觉对象的视觉特征,获取样本问题和样本答案候选项的初始语境句子表示;
[0009]根据视觉上下文引导,自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息,学习获得样本问题和样本答案候选项基于知识的句子表示,再通过知识嵌入,学习样本问题和样本答案候选项的知识感知注意向量;
[0010]将获取的知识感知注意向量与视觉特征进行融合,获取融合特征,以此训练视觉
常识推理模型;
[0011]将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果。
[0012]进一步的技术方案,所述获取样本问题和样本答案候选项的初始语境句子表示,包括:
[0013]利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入;
[0014]将提取的词嵌入输入至双向长短期记忆网络中,生成样本问题和样本答案候选项的初始语境句子表示。
[0015]进一步的技术方案,所述获取样本图像中视觉对象的视觉特征,包括:
[0016]利用预训练的基于ResNet101网络的目标检测模型对样本图像进行目标检测,提取出图像中多个视觉对象的视觉特征。
[0017]进一步的技术方案,所述根据视觉上下文引导,自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息,学习获得样本问题和样本答案候选项基于知识的句子表示,包括:
[0018]在视觉信息的引导下,利用基于BERT的预训练语言模型ZEN,通过语法匹配算法,筛选得到样本问题和样本答案候选项中与视觉特征相关的词组,以此构建词组候选集合;
[0019]聚集词组候选集合中各词组在视觉特征中的嵌入表示,通过上下文引导,学习样本问题和样本答案候选项的基于知识的句子表示。
[0020]进一步的技术方案,利用预训练的TransE模型学习得到词组候选集合中各候选词组在视觉特征中的嵌入表示;
[0021]在获取样本问题和样本答案候选项的初始语境句子表示的基础上,结合学习得到的词组嵌入表示,通过上下文引导,学习样本问题和样本答案候选项基于知识的句子表示。
[0022]进一步的技术方案,所述通过知识嵌入,学习样本问题和样本答案候选项的知识感知注意向量,包括:
[0023]根据样本问题和样本答案候选项的初始语境句子表示和基于知识的句子表示,分别计算样本问题和样本答案候选项的注意矩阵和基于知识的注意矩阵;
[0024]在注意矩阵和基于知识的注意矩阵上确定行和列的最大汇集,分别为样本问题和样本答案候选项生成基于视觉上下文的注意向量和基于知识的注意向量;
[0025]将两个注意向量合并,得到样本问题和样本答案候选项的初始知识感知注意向量;
[0026]将初始知识感知注意向量与整个句子向量进行点积,分别获得样本问题和样本答案候选项最终的知识感知注意向量。
[0027]进一步的技术方案,所述获取融合特征,以此训练视觉常识推理模型,包括:
[0028]以设有分段线性函数的多层感知器为分类器,以融合特征为输入,以样本答案候选项的真实标签与预测标签之间的交叉熵损失训练视觉常识推理模型。
[0029]第二方面,本公开提供了一种基于知识感知注意力网络的视觉常识推理系统,包括:
[0030]视觉常识推理模型构建及训练模块,用于以多组互相对应的样本图像、样本问题
和已标注的样本答案候选项为样本训练集,训练所构建的视觉常识推理模型;所述训练过程包括:
[0031]获取样本图像中视觉对象的视觉特征,获取样本问题和样本答案候选项的初始语境句子表示;
[0032]根据视觉上下文引导,自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息,学习获得样本问题和样本答案候选项基于知识的句子表示,再通过知识嵌入,学习样本问题和样本答案候选项的知识感知注意向量;
[0033]将获取的知识感知注意向量与视觉特征进行融合,获取融合特征,以此训练视觉常识推理模型;
[0034]推理模块,用于将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果。
[0035]第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
[0036]第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
[0037]以上一个或多个技术方案存在以下有益效果:
[0038]1、本专利技术提供了一种基于知识感知注意力网络的视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识感知注意力网络的视觉常识推理方法,其特征是,包括:以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集,训练所构建的视觉常识推理模型;所述训练过程包括:获取样本图像中视觉对象的视觉特征,获取样本问题和样本答案候选项的初始语境句子表示;根据视觉上下文引导,自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息,学习获得样本问题和样本答案候选项基于知识的句子表示,再通过知识嵌入,学习样本问题和样本答案候选项的知识感知注意向量;将获取的知识感知注意向量与视觉特征进行融合,获取融合特征,以此训练视觉常识推理模型;将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型,输出推理结果。2.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法,其特征是,所述获取样本问题和样本答案候选项的初始语境句子表示,包括:利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入;将提取的词嵌入输入至双向长短期记忆网络中,生成样本问题和样本答案候选项的初始语境句子表示。3.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法,其特征是,所述获取样本图像中视觉对象的视觉特征,包括:利用预训练的基于ResNet101网络的目标检测模型对样本图像进行目标检测,提取出图像中多个视觉对象的视觉特征。4.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法,其特征是,所述根据视觉上下文引导,自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息,学习获得样本问题和样本答案候选项基于知识的句子表示,包括:在视觉信息的引导下,利用基于BERT的预训练语言模型ZEN,通过语法匹配算法,筛选得到样本问题和样本答案候选项中与视觉特征相关的词组,以此构建词组候选集合;聚集词组候选集合中各词组在视觉特征中的嵌入表示,通过上下文引导,学习样本问题和样本答案候选项的基于知识的句子表示。5.如权利要求4所述的基于知识感知注意力网络的视觉常识推理方法,其特征是,利用预训练的TransE模型学习得到词组候选集合中各候选词组在视觉特征中的嵌入表示;在获取样本问题和样本答案候选项的初始语境句子表示的基础上,结合学习得到的词组嵌入表示,通过上下文引导,学习样本问题和样本答案候选项基于知识的句子表示。6.如权利要求1所述...

【专利技术属性】
技术研发人员:张文琪高永超钱恒
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1