【技术实现步骤摘要】
一种引入外部知识的视觉问答方法
本专利技术属于自然语言理解
,具体涉及一种引入外部知识的视觉问答方法。
技术介绍
视觉问答涉及计算机视觉和自然语言处理技术,即给定一张图片和一个与该图片相关的自然语言问题,计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象,其中的问题与简单的计数、颜色和其它视觉检测任务有关,只需要直接分析问题和图像就可以获得答案,因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识,这些模型往往会得出错误答案,而人类在面对涉及常识的视觉问题时,会综合关联图像和外部知识来回答。因此,为了补足和人类的差距从而实现更通用的人工智能,将外部知识引入视觉问答中是必不可少的环节。有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库,抽取出有关联的事实组成一 ...
【技术保护点】
1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:/n步骤1,构造图像I的视觉图G
【技术特征摘要】
1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。
2.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,的计算公式为:
式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。
3.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,所述步骤3...
【专利技术属性】
技术研发人员:王春辉,胡勇,
申请(专利权)人:拾音智能科技有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。