一种引入外部知识的视觉问答方法技术

技术编号：25479664 阅读：27 留言：0更新日期：2020-09-01 23:01

本发明专利技术公开一种引入外部知识的视觉问答方法。所述方法包括：构造视觉图；构造事实知识图；利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，以可能是答案的概率最大的事实知识为问题的答案。本发明专利技术通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，避免了冗余的噪声，提高了答案的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种引入外部知识的视觉问答方法
本专利技术属于自然语言理解
，具体涉及一种引入外部知识的视觉问答方法。
技术介绍
视觉问答涉及计算机视觉和自然语言处理技术，即给定一张图片和一个与该图片相关的自然语言问题，计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象，其中的问题与简单的计数、颜色和其它视觉检测任务有关，只需要直接分析问题和图像就可以获得答案，因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识，这些模型往往会得出错误答案，而人类在面对涉及常识的视觉问题时，会综合关联图像和外部知识来回答。因此，为了补足和人类的差距从而实现更通用的人工智能，将外部知识引入视觉问答中是必不可少的环节。有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库，抽取出有关联的事实组成一...

【技术保护点】
1.一种引入外部知识的视觉问答方法，其特征在于，包括以下步骤：/n步骤1，构造图像I的视觉图G

【技术特征摘要】
1.一种引入外部知识的视觉问答方法，其特征在于，包括以下步骤：
步骤1，构造图像I的视觉图Gv＝(Vv,Ev)，Vv＝{vi}为节点集，i∈[1,Nv]，Nv为节点个数，vi为第i个节点，表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量，为边集合，为连接节点vi和vj的边，是表示第i个检测框和第j个检测框位置关系的向量，j∈[1,Nv]，j≠i；
步骤2，选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf＝(Vf,Ef)，Vf＝{fi}为节点集，i∈[1,Nf]，fi为第i个节点，表示第i个事实知识，为边集合，为连接节点fi和fj的边，表示第i个事实知识与第j个事实知识的关系，j∈[1,Nf]，j≠i；
步骤3，利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；
步骤4，在问题的引导下，从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，可能是答案的概率最大的事实知识为问题的答案。

2.根据权利要求1所述的引入外部知识的视觉问答方法，其特征在于，的计算公式为：

式中，xi、yi分别为第i个检测框左上角的横坐标和纵坐标，xj、yj分别为第j个检测框左上角的横坐标和纵坐标，wi、hi分别为第i个检测框的宽和高，wj、hj分别为第j个检测框的宽和高。

3.根据权利要求1所述的引入外部知识的视觉问答方法，其特征在于，所述步骤3...

【专利技术属性】
技术研发人员：王春辉，胡勇，
申请(专利权)人：拾音智能科技有限公司，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人