一种引入外部知识的视觉问答方法技术

技术编号:25479664 阅读:14 留言:0更新日期:2020-09-01 23:01
本发明专利技术公开一种引入外部知识的视觉问答方法。所述方法包括:构造视觉图;构造事实知识图;利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明专利技术通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答案的准确率。

【技术实现步骤摘要】
一种引入外部知识的视觉问答方法
本专利技术属于自然语言理解
,具体涉及一种引入外部知识的视觉问答方法。
技术介绍
视觉问答涉及计算机视觉和自然语言处理技术,即给定一张图片和一个与该图片相关的自然语言问题,计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象,其中的问题与简单的计数、颜色和其它视觉检测任务有关,只需要直接分析问题和图像就可以获得答案,因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识,这些模型往往会得出错误答案,而人类在面对涉及常识的视觉问题时,会综合关联图像和外部知识来回答。因此,为了补足和人类的差距从而实现更通用的人工智能,将外部知识引入视觉问答中是必不可少的环节。有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库,抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类,得到一个查询语句,根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实的匹配程度,选择最相关的事实。最后根据问题预测答案的来源,选择一个实体当做最后的问题。但是如果出现同义词或同形异义词,QQMapping的效果就会下降。为此,有人提出一种基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像和问题的嵌入表示,然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表示。通过另一个LSTM预测对应事实的关系类型,然后根据关系抽取出相应的事实,使用GloVe得到事实的嵌入,计算其与图像-问题联合表示的内积,选取内积最大的作为事实。最后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力,能够克服同义词和同形异义词引发的歧义。图神经网络是一种将深度学习扩展到图数据的模型,可以有效利用图数据的复杂的拓扑结构学习每个节点的表示,从而提高下游任务的准确度。根据图像的视觉概念和对应的关系类型将抽取到的事实组成一个知识图谱,其中每个节点是一个实体,每条边表示实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用图卷积网络学习到每个节点的表示,有效地捕获了知识图谱的邻居信息和拓扑结构信息。学习到的每个节点的表示通过一个多层感知机,最后一层只包括一个神经元,输出当前节点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。上述方法存在的问题是:编码图像时都使用了全部的视觉信息,但没有根据问题的不同自适应地选择需要的信息,会引入与问题无关的噪声;将回答问题所需的视觉信息和事实知识直接拼接,没有根据问题进行动态融合。
技术实现思路
为了解决现有技术中存在的上述问题,本专利技术提出一种基引入外部知识的视觉问答方法。为实现上述目的,本专利技术采用如下技术方案:一种引入外部知识的视觉问答方法,包括以下步骤:步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。与现有技术相比,本专利技术具有以下有益效果:本专利技术通过构造视觉图,构造事实知识图,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点,在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本专利技术通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答案的准确率。附图说明图1为本专利技术实施例一种引入外部知识的视觉问答方法的流程图。具体实施方式下面结合附图对本专利技术作进一步详细说明。本专利技术实施例一种引入外部知识的视觉问答方法,流程图如图1所示,所述方法包括:S101、构造图像I的视觉图Gv=(Vv,Ev)。Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;S102、选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;S103、利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;S104、在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。在本实施例中,步骤S101用于构造图像I的视觉图。由于FVQA中的大多数问题都是基于视觉对象及其关系,因此本实施例构造了一个全连通的视觉图来表征表层的视觉信息。视觉图中的一个节点表示一个图像特征向量,是利用Faster-RCNN从图像I的一个检测框内提取的。Faster-RCNN是计算机视觉领域常用的一种目标检测模型。它可以自动地检测出图像中包含的物体并对物体进行分类。任意两个节点之间连接一条边,所述边表示两个节点对应的检测框的位置关系。在本实施例中,步骤S102用于构造事实知识图。事实知识图的一个节点表示一个事实知识;任意两个节点之间连接一条边,表示两个节点表示的事实知识之间的关系。构造事实知识图的事实知识来自知识库。为了找到与问题最相关的事实,从知识库中选择一系列与问题相关的候选事实知识。首先,计算事实知识中每个单词的词嵌入ai,S101中检测到的每个图像特征标签的词嵌入bj,问题中每个单词的词嵌入ck。计本文档来自技高网
...

【技术保护点】
1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:/n步骤1,构造图像I的视觉图G

【技术特征摘要】
1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。


2.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,的计算公式为:



式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。


3.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,所述步骤3...

【专利技术属性】
技术研发人员:王春辉胡勇
申请(专利权)人:拾音智能科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1