基于知识图谱的视觉问答方法技术

技术编号:38026726 阅读:3 留言:0更新日期:2023-06-30 10:53
本发明专利技术公开了一种基于知识图谱的视觉问答方法,该方法基于把知识图谱的外部知识嵌入模型内部的特征流。该方法利用双线性池化的方法把外部知识嵌入图像表达之中,从而获得人类知识增强的图像特征表达,达到充分挖掘视觉特征中隐含的人类先验知识的目的。同时,该方法还通过双流变换器和特征聚合,使最终的特征表达包含图像和文本之间的注意力关系。该技术可以应用于视觉问答领域,包括早期在线教育和盲人辅助等领域,具有很大的商业价值。具有很大的商业价值。

【技术实现步骤摘要】
基于知识图谱的视觉问答方法


[0001]本专利技术涉及计算机视觉、自然语言处理等
,主要涉及的是通过融合与图片内容相关的外部知识来达到增强图片特征表达的目的,从而增强问答模型的效果。该技术可以应用于早期教育、盲人辅助等领域,具有很大的商业价值。

技术介绍

[0002]随着深度学习技术在计算机视觉和自然语言处理领域的不断发展,视觉问答逐渐出现。视觉问答的概念最早由Antol等人于2015年提出。视觉问答可以定义为给定一张图片和一个与图片相关的自然语言问题,模型需要输出一个正确的答案。视觉问答可以应用于在线教育、盲人辅助导航、视频监控自动查询等多个领域。
[0003]显然,这是一个结合了计算机视觉和自然语言处理技术的多模态问题。视觉问答任务可以通过多种方法来实现,一般算法可以分为三个步骤:从图像中提取特征、从问题中提取特征、将图像和文本结合生成答案。算法之间的区别主要体现在第三步,即两种输入特征的结合方式上,直接将图像特征和文本特征进行融合的简单方法有拼接、张量、内积、外积等。在对特征进行集成后,采用简单的分类器,如线性分类器或多层感知器等。
[0004]但是简单的融合文本和图像特征进行分类并不能回答需要先验知识的问题。以往利用人类知识预测答案的视觉问答方法主要集中于增强问题特征的表示。2018年Narasimhan等人使用长短期记忆网络从问题中预测事实关系类型。2020年Garderes等使用ConceptNet作为知识源,并将实体信息嵌入到语言的表示中。但是他们的方法都忽略了与图像特征相关的隐含知识。
[0005]还有一些方法使用图神经网络进行推理来处理视觉问答任务。2020年Zhu等人用一个多模态异构图来描述一个图结构进行推理从而输出答案,它包含了与视觉、语义和事实特征相对应的多层信息。2020年Yu等人将模型分解为一系列基于记忆的推理步骤,每个步骤由基于图形的读取、更新和控制模块执行,该模块对视觉和语义信息进行并行推理。然而,这些方法考虑到了输入图像中隐含的外部知识,但是其本身受到图神经网络本身的一些限制,如:当图神经网络中节点数量变大时,图神经网络的计算量变得非常巨大。
[0006]为了解决上述问题,我们考虑图从输入的图片中检测实体对象,从知识图中检索这些对象的隐式外部信息,并在下一步使用我们提出的融合方法对图像信息进行增强,从而在隐式推理的过程中嵌入与输入图像相关的外部知识。

技术实现思路

[0007]专利技术目的:针对常规基于外部知识的视觉问答方法没有充分挖掘输入图片中隐含的实体的信息的问题,本专利技术通过多模态双线性池化模块,融合知识图谱中与实体对应节点的特征和图片中的实体特征来增强图片的特征表示。
[0008]1、一种基于知识图谱的视觉问答方法,其特征在于,包括以下步骤:
[0009]步骤1.1:将图像数据输入到预训练好的快速目标检测网络得到图片中的区域特
征和检测框特征。将输入问题的文本进行分词,得到长度为文本单词个数的单词,送入预训练好的变换器的双向编码器得到句子的特征表示。
[0010]步骤1.2:将外部知识信息中的实体与属性关系构建为指定关系类型的三元组形式,构建成知识图谱,包含26000条边和6000个节点。
[0011]步骤1.3:通过图卷积神经网络处理知识图谱数据,用预训练好的变换器的双向编码器特征表示来初始化每个实体节点的特征,然后在图卷积网络处理知识图谱的图数据结构后,得到更新后的实体节点表示。通过余弦相似度计算知识图谱中实体节点和目标检测网络检测到的实体节点的相似度来筛选出与输入图片相关的知识图谱实体节点。同样通过余弦相似度来筛选出知识图谱中与问题中涉及的关键词最相关的实体节点。
[0012]步骤1.4:通过多模态紧凑双线性池化模块融合来自知识图谱中实体节点的特征和图像特征,得到知识嵌入的图像特征表示。
[0013]步骤1.5:将提取的问题的文本特征和知识图谱中的实体特征输入多个堆叠变换器块,生成知识嵌入的文本特征表示。
[0014]步骤1.6:将知识嵌入的图像特征与知识嵌入文本的特征进行拼接,得到联合的特征表示。
[0015]步骤1.7:将通过步骤1.1和步骤1.2处理得到的特征输入一个并行的变换器模块,将图像和文本的特征表示在高级语义空间对齐,得到图像注意的文本特征和文本注意的图像特征。
[0016]步骤1.8:将步骤1.6和步骤1.7的三个特征流输入特征聚合器,得到图像、文本和外部知识的联合表示,然后将联合表示输入分类器进行分类。
[0017]根据权利要求1所述的一种基于知识图谱的视觉问答方法,其特征在于,所述步骤1.2中的构建知识图谱方法如下:
[0018]步骤2.1:筛选来自ConceptNet数据集、WebChild数据集和VisualGenome数据集中的场景图的实体和属性关系,构建成结构为(实体,关系,属性或实体)的三元组,将知识图谱构建为G=(E,R,T)的三元组格式,其中e
i
∈E代表知识图谱中的实体,e
j
∈E表示另外一个实体或者属性,(e
i
,r,e
j
)∈R代表实体之间的关系,t∈T代表实体之间的关系种类,实体特征用与问题输入相同的词嵌入方法表示。
[0019]步骤2.2:筛选出视觉问答领域中使用频次较高的几种实体间关系类型,指定ConceptNet数据集中的8种关系类型:“在...位置”,“用来...”,“是...”,“与...相关”,“拥有...”,“由...创建”,“能...”,“有...性质”,WebChild数据集中的4种关系类型:“有...物质”,“有...成员”,“在...下面”,“在...位置”,以及VisualGenome中的5种关系类型:“在...附近”,“在...里”,“在...上面”,“由...制成”,“拥有...”。
[0020]3、根据权利要求1所述的一种基于知识图谱的视觉问答方法,其特征在于,所述步骤1.3中的得到知识图谱节点特征表示以及筛选出与输入图片和文本相关的节点的方法如下:
[0021]步骤3.1:将知识图谱构建为G=(E,R,T)的三元组格式,其中e
i
∈E代表知识图谱中的实体,(e
i
,r,e
j
)∈R代表实体之间的关系,t∈T代表实体之间的关系种类。对于第l层节点e
i
的隐藏状态这里d
(l)
是每个节点的维数,更新节点的传播模型可以定义如下:
[0022][0023]其中σ(
·
)为元素级的激活函数,表示关系类型t∈T下节点i的邻域索引集,c
i,t
是一个标准化常数,为一个可学习的权重矩阵,表示对于第l层节点e
j
的隐藏状态,为一个可学习的多层感知机。在神经网络中的节点信息进行多层传播后,得到了最终的节点表达式:
[0024][0025]在网络反向传播过程中使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的视觉问答方法,其特征在于,包括以下步骤:步骤1.1:将图像数据输入到预训练好的快速目标检测网络得到图片中的区域特征和检测框特征。将输入问题的文本进行分词,得到长度为文本单词个数的单词,送入预训练好的变换器的双向编码器得到句子的特征表示。步骤1.2:将外部知识信息中的实体与属性关系构建为指定关系类型的三元组形式,构建成知识图谱,包含26000条边和6000个节点。步骤1.3:通过图卷积神经网络处理知识图谱数据,用预训练好的变换器的双向编码器特征表示来初始化每个实体节点的特征,然后在图卷积网络处理知识图谱的图数据结构后,得到更新后的实体节点表示。通过余弦相似度计算知识图谱中实体节点和目标检测网络检测到的实体节点的相似度来筛选出与输入图片相关的知识图谱实体节点。同样通过余弦相似度来筛选出知识图谱中与问题中涉及的关键词最相关的实体节点。步骤1.4:通过多模态紧凑双线性池化模块融合来自知识图谱中实体节点的特征和图像特征,得到知识嵌入的图像特征表示。步骤1.5:将提取的问题的文本特征和知识图谱中的实体特征输入多个堆叠变换器块,生成知识嵌入的文本特征表示。步骤1.6:将知识嵌入的图像特征与知识嵌入文本的特征进行拼接,得到联合的特征表示。步骤1.7:将通过步骤1.1和步骤1.2处理得到的特征输入一个并行的变换器模块,将图像和文本的特征表示在高级语义空间对齐,得到图像注意的文本特征和文本注意的图像特征。步骤1.8:将步骤1.6和步骤1.7的三个特征流输入特征聚合器,得到图像、文本和外部知识的联合表示,然后将联合表示输入分类器进行分类。2.根据权利要求1所述的一种基于知识图谱的视觉问答方法,其特征在于,所述步骤1.2中的构建知识图谱方法如下:步骤2.1:筛选来自ConceptNet数据集、WebChild数据集和VisualGenome数据集中的场景图的实体和属性关系,构建成结构为(实体,关系,属性或实体)的三元组,将知识图谱构建为G=(E,R,T)的三元组格式,其中e
i
∈E代表知识图谱中的实体,e
j
∈E表示另外一个实体或者属性,(e
i
,r,e
j
)∈R代表实体之间的关系,t∈T代表实体之间的关系种类,实体特征用与问题输入相同的词嵌入方法表示。步骤2.2:筛选出视觉问答领域中使用频次较高的几种实体间关系类型,指定ConceptNet数据集中的8种关系类型:“在...位置”,“用来...”,“是...”,“与...相关”,“拥有...”,“由...创建”,“能...”,“有...性质”,WebChild数据集中的4种关系类型:“有...物质”,“有...成员”,“在...下面”,“在...位置”,以及VisualGenome中的5种关系类型:“在...附近”,“在...里”,“在...上面”,“由...制成”,“拥有...”。3.根据权利要求1所述的一种基于知识图谱的视觉问答方法,其特征在于,...

【专利技术属性】
技术研发人员:成科扬蒋洲万浩严浏阳周昊丁杨柳位刘涛陈涛
申请(专利权)人:镇江昭远智能科技有限公司南京昭视智能科技有限公司无锡维伊恩智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1