基于图注意力网络的视觉常识推理方法及系统技术方案

技术编号：36789156 阅读：13 留言：0更新日期：2023-03-08 22:36

本发明专利技术公开了一种基于图注意力网络的视觉常识推理方法及系统，涉及计算机视觉与自然语言处理交叉技术领域，该方法包括：以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：获取样本图像、样本问题和样本答案候选项的视觉特征和语言特征，以视觉特征为视觉节点，基于图注意力机制，利用语义信息更新视觉特征；采用多模态融合，融合语言特征和更新后的视觉特征，获取视觉和语言的联合特征表示，以此训练视觉常识推理模型；将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果，实现准确推理，提升了视觉常识推理任务的性能。理任务的性能。理任务的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于图注意力网络的视觉常识推理方法及系统

[0001]本专利技术属于计算机视觉与自然语言处理交叉
，尤其涉及一种基于图注意力网络的视觉常识推理方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]随着计算机视觉和自然语言处理这两大领域的快速发展，许多针对视觉相关的研究逐渐从底层特征识别转向更复杂、更智能的任务，例如图像描述、视觉问答、视频问答等，涉及了计算机视觉、自然语言处理、机器学习等多个研究领域，旨在实现对视觉内容的高层语义认知与表达。这些特定任务对于人而言，通常可以在没有任何外部辅助的情况下完成，但是对于计算机而言，完成任务却十分困难。人理解图像通常根据已有的生活常识，结合图像中的物体和场景，经过推理分析出图像的含义，而计算机理解图像局限于表层特征，缺乏图像语义层面的理解。
[0004]现有技术中，视觉常识推理(Visual Commonsense Reasoning，VCR)是一种融入常识的多模态任务，该任务不仅需要根据问题从选项中选出正确的答案，还要根据该答案选出一个合理的理由。视觉常识推理共包含三项子任务，包括：Q
→
A：给定自然语言问题Q，从答案候选项中选择正确的答案A；QA
→
R：给定自然语言问题以及该问题的答案QA，从理由候选项中选择理由R；Q
→
AR：包含Q
→
A和QA
→
R两项任务...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力网络的视觉常识推理方法，其特征是，包括：以多组互相对应的样本图像、样本问题和已标注的样本答案候选项为样本训练集，训练所构建的视觉常识推理模型；所述训练过程包括：获取样本问题和样本答案候选项的语言特征，获取样本图像中视觉对象的视觉特征；以视觉特征为视觉节点，基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征，利用样本问题和样本答案候选项的语义信息更新视觉关系特征，基于更新后的视觉关系特征更新视觉特征；采用多模态融合，融合样本图像更新后的视觉特征、样本问题和样本答案候选项的语言特征，获取视觉和语言的联合特征表示，以此训练视觉常识推理模型；将待推理图像、待推理问题和多个推理答案候选项输入至训练完成的视觉常识推理模型，输出推理结果。2.如权利要求1所述的基于图注意力网络的视觉常识推理方法，其特征是，所述获取样本问题和样本答案候选项的语言特征，包括：利用预训练的语言表征模型提取样本问题和样本答案候选项自然语言文本的词嵌入；将提取的词嵌入输入至双向长短期记忆网络中，生成样本问题和样本答案候选项自然语言文本的语言特征。3.如权利要求1所述的基于图注意力网络的视觉常识推理方法，其特征是，所述获取样本图像中视觉对象的视觉特征，包括：利用预训练的基于ResNet101网络的目标检测模型对样本图像进行目标检测，提取出图像中多个视觉对象的视觉特征。4.如权利要求1所述的基于图注意力网络的视觉常识推理方法，其特征是，所述基于图注意力机制学习样本图像中每个视觉节点之间的视觉关系特征，包括：利用共享权重矩阵对视觉节点的视觉特征分别进行线性变换，将视觉节点的视觉特征映射到一个特征子空间中，得到每个视觉节点的映射结果，将该映射结果作为每个视觉节点的视觉关系特征。5.如权利要求1所述的基于图注意力网络的视觉常识推理方法，其特征是，所述利用样本问题和样本答案候选项的语义信息更新视觉关系特征，包括：将样本问题和样本答案候选项中视觉词的词特征向量与样本图像中视觉节点的视觉关系特征连接起来，得到更新后的视觉...

【专利技术属性】
技术研发人员：张文琪，高永超，钱恒，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人