当前位置: 首页 > 专利查询>镇江昭远智能科技有限公司南京昭视智能科技有限公司无锡维伊恩智能科技有限公司专利>正文

基于知识图谱的视觉问答方法技术

技术编号：38026726 阅读：3 留言：0更新日期：2023-06-30 10:53

本发明专利技术公开了一种基于知识图谱的视觉问答方法，该方法基于把知识图谱的外部知识嵌入模型内部的特征流。该方法利用双线性池化的方法把外部知识嵌入图像表达之中，从而获得人类知识增强的图像特征表达，达到充分挖掘视觉特征中隐含的人类先验知识的目的。同时，该方法还通过双流变换器和特征聚合，使最终的特征表达包含图像和文本之间的注意力关系。该技术可以应用于视觉问答领域，包括早期在线教育和盲人辅助等领域，具有很大的商业价值。具有很大的商业价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识图谱的视觉问答方法

[0001]本专利技术涉及计算机视觉、自然语言处理等
，主要涉及的是通过融合与图片内容相关的外部知识来达到增强图片特征表达的目的，从而增强问答模型的效果。该技术可以应用于早期教育、盲人辅助等领域，具有很大的商业价值。

技术介绍

[0002]随着深度学习技术在计算机视觉和自然语言处理领域的不断发展，视觉问答逐渐出现。视觉问答的概念最早由Antol等人于2015年提出。视觉问答可以定义为给定一张图片和一个与图片相关的自然语言问题，模型需要输出一个正确的答案。视觉问答可以应用于在线教育、盲人辅助导航、视频监控自动查询等多个领域。
[0003]显然，这是一个结合了计算机视觉和自然语言处理技术的多模态问题。视觉问答任务可以通过多种方法来实现，一般算法可以分为三个步骤:从图像中提取特征、从问题中提取特征、将图像和文本结合生成答案。算法之间的区别主要体现在第三步，即两种输入特征的结合方式上，直接将图像特征和文本特征进行融合的简单方法有拼接、张量、内积、外积等。在对特征进行集成后，采用简单的分类器，如线性分类器或多层感知器等。
[0004]但是简单的融合文本和图像特征进行分类并不能回答需要先验知识的问题。以往利用人类知识预测答案的视觉问答方法主要集中于增强问题特征的表示。2018年Narasimhan等人使用长短期记忆网络从问题中预测事实关系类型。2020年Garderes等使用ConceptNet作为知识源，并将实体信息嵌入到语言的表示中。但是他们的方法都忽略了与图像特征相关的隐含...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的视觉问答方法，其特征在于，包括以下步骤：步骤1.1：将图像数据输入到预训练好的快速目标检测网络得到图片中的区域特征和检测框特征。将输入问题的文本进行分词，得到长度为文本单词个数的单词，送入预训练好的变换器的双向编码器得到句子的特征表示。步骤1.2：将外部知识信息中的实体与属性关系构建为指定关系类型的三元组形式，构建成知识图谱，包含26000条边和6000个节点。步骤1.3：通过图卷积神经网络处理知识图谱数据，用预训练好的变换器的双向编码器特征表示来初始化每个实体节点的特征，然后在图卷积网络处理知识图谱的图数据结构后，得到更新后的实体节点表示。通过余弦相似度计算知识图谱中实体节点和目标检测网络检测到的实体节点的相似度来筛选出与输入图片相关的知识图谱实体节点。同样通过余弦相似度来筛选出知识图谱中与问题中涉及的关键词最相关的实体节点。步骤1.4：通过多模态紧凑双线性池化模块融合来自知识图谱中实体节点的特征和图像特征，得到知识嵌入的图像特征表示。步骤1.5：将提取的问题的文本特征和知识图谱中的实体特征输入多个堆叠变换器块，生成知识嵌入的文本特征表示。步骤1.6：将知识嵌入的图像特征与知识嵌入文本的特征进行拼接，得到联合的特征表示。步骤1.7：将通过步骤1.1和步骤1.2处理得到的特征输入一个并行的变换器模块，将图像和文本的特征表示在高级语义空间对齐，得到图像注意的文本特征和文本注意的图像特征。步骤1.8：将步骤1.6和步骤1.7的三个特征流输入特征聚合器，得到图像、文本和外部知识的联合表示，然后将联合表示输入分类器进行分类。2.根据权利要求1所述的一种基于知识图谱的视觉问答方法，其特征在于，所述步骤1.2中的构建知识图谱方法如下：步骤2.1：筛选来自ConceptNet数据集、WebChild数据集和VisualGenome数据集中的场景图的实体和属性关系，构建成结构为(实体，关系，属性或实体)的三元组，将知识图谱构建为G＝(E,R,T)的三元组格式，其中e
i
∈E代表知识图谱中的实体，e
j
∈E表示另外一个实体或者属性，(e
i
,r,e
j
)∈R代表实体之间的关系，t∈T代表实体之间的关系种类,实体特征用与问题输入相同的词嵌入方法表示。步骤2.2：筛选出视觉问答领域中使用频次较高的几种实体间关系类型，指定ConceptNet数据集中的8种关系类型：“在...位置”，“用来...”，“是...”，“与...相关”，“拥有...”，“由...创建”，“能...”，“有...性质”，WebChild数据集中的4种关系类型：“有...物质”，“有...成员”，“在...下面”，“在...位置”，以及VisualGenome中的5种关系类型：“在...附近”，“在...里”，“在...上面”，“由...制成”，“拥有...”。3.根据权利要求1所述的一种基于知识图谱的视觉问答方法，其特征在于，...

【专利技术属性】
技术研发人员：成科扬，蒋洲，万浩，严浏阳，周昊，丁杨柳，位刘涛，陈涛，
申请(专利权)人：镇江昭远智能科技有限公司南京昭视智能科技有限公司无锡维伊恩智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人