基于知识感知注意力网络的视觉常识推理方法及系统技术方案

技术编号：36789366 阅读：16 留言：0更新日期：2023-03-08 22:37

本发明专利技术公开了一种基于知识感知注意力网络的视觉常识推理方法及系统，涉及计算机视觉与自然语言处理交叉技术领域，该方法包括：以多组互相对应的样本图像、样本问题和已标注的样本答案候选项，训练视觉常识推理模型；该训练过程包括：获取样本图像、样本问题和样本答案候选项的视觉特征和初始语境句子表示；根据视觉上下文引导以及知识嵌入，学习样本问题和样本答案候选项基于知识的句子表示以及知识感知注意向量；融合知识感知注意向量与视觉特征得到融合特征，以此训练视觉常识推理模型；将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果，实现准确推理，提升了视觉常识推理任务的性能。务的性能。务的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识感知注意力网络的视觉常识推理方法及系统

[0001]本专利技术属于计算机视觉与自然语言处理交叉
，尤其涉及一种基于知识感知注意力网络的视觉常识推理方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]在由大量不同模态数据构建的多媒体世界中，不同模态的数据在具体应用的过程中具有高度相关性。单模态学习是指将信息表示为计算机可以处理的数值向量或进一步抽象为更高层的特征向量；而多模态学习旨在通过机器学习的方法，利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示，这需要将不同模态的数据嵌入到一个公共表示空间中进行对齐、比较和融合。
[0004]近年来，涌现了大量关于多模态任务的研究，这类任务更加能够反映计算机对于各类模态数据的理解能力。其中，具有代表性的任务是视觉常识推理(Visual Commonsense Reasoning，VCR)任务，视觉常识推理任务不仅需要根据图像和问题从答案候选项中选出正确的答案，还要从理由候选项中选出一个正确的理由来解释该答案。这一任务中，回答自然语言问题不仅需要对图像中的物体、行为等进行识别，还需要大量的常识知识帮助理解图像。然而，现有的视觉常识推理方法并未关注在理解图像和文本过程中起关键作用的背景信息以及隐藏在上下文之外的内容，导致视觉常识推理任务的准确性和性能较差。

技术实现思路

[0005]为解决上述现有技术的不足，本专...

【技术保护点】

【技术特征摘要】
1.一种基于知识感知注意力网络的视觉常识推理方法，其特征是，包括：以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：获取样本图像中视觉对象的视觉特征，获取样本问题和样本答案候选项的初始语境句子表示；根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，再通过知识嵌入，学习样本问题和样本答案候选项的知识感知注意向量；将获取的知识感知注意向量与视觉特征进行融合，获取融合特征，以此训练视觉常识推理模型；将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。2.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述获取样本问题和样本答案候选项的初始语境句子表示，包括：利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入；将提取的词嵌入输入至双向长短期记忆网络中，生成样本问题和样本答案候选项的初始语境句子表示。3.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述获取样本图像中视觉对象的视觉特征，包括：利用预训练的基于ResNet101网络的目标检测模型对样本图像进行目标检测，提取出图像中多个视觉对象的视觉特征。4.如权利要求1所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，所述根据视觉上下文引导，自适应提取样本问题和样本答案候选项中的与视觉相关的重要信息，学习获得样本问题和样本答案候选项基于知识的句子表示，包括：在视觉信息的引导下，利用基于BERT的预训练语言模型ZEN，通过语法匹配算法，筛选得到样本问题和样本答案候选项中与视觉特征相关的词组，以此构建词组候选集合；聚集词组候选集合中各词组在视觉特征中的嵌入表示，通过上下文引导，学习样本问题和样本答案候选项的基于知识的句子表示。5.如权利要求4所述的基于知识感知注意力网络的视觉常识推理方法，其特征是，利用预训练的TransE模型学习得到词组候选集合中各候选词组在视觉特征中的嵌入表示；在获取样本问题和样本答案候选项的初始语境句子表示的基础上，结合学习得到的词组嵌入表示，通过上下文引导，学习样本问题和样本答案候选项基于知识的句子表示。6.如权利要求1所述...

【专利技术属性】
技术研发人员：张文琪，高永超，钱恒，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人