【技术实现步骤摘要】
一种基于路径推理的开放视觉问答的系统
[0001]本专利技术涉及神经网络
,具体来说涉及视觉问答
,更具体地说,涉及一种基于路径推理的开放视觉问答的系统
。
技术介绍
[0002]随着计算机视觉和自然语言处理技术的发展,基于外部知识的视觉问答
(Knowledge
‑
based Visual Question Answering
,简称
KB
‑
VQA)
任务成为一个研究热点
。KB
‑
VQA
任务需要对给定的问题和图像进行推理,并从知识库中获取相关信息来得到答案
。
[0003]解决该问题的模型通常是基于知识检索器
‑
回答器框架进行的两阶段操作,即,先通过知识检索器从知识库中获取相关信息,然后将获取的相关信息与问题和图像一起输入回答器以预测答案
。
[0004]知识检索阶段通常使用手工规则进行操作,并且不会与回答器进行端到端的训练
。
对于文本形式的知识,密集段落检索模型
(DPR)
已经证明可以有效地检索相关知识片段
。
而视觉知识则可以通过在输入图像上应用视觉模型
(
如目标分割模型
、
图像描述模型等
)
获取
。
[0005]回答器的框架可以分为两类:答案生成器和答案分类器
。
预训练的答案生成器主要基于给定的图 ...
【技术保护点】
【技术特征摘要】
1.
一种基于路径推理的开放视觉问答的系统,其特征在于,所述系统包括:模式图构建模块,用于获取输入的图像和针对该图像提出的问题文本,从所述图像和问题文本中提取节点和关系来构建第一模式图,从预设的知识库检索第一模式图中节点的预设跳数内的邻居节点以对所述第一模式图进行扩展,得到融合外部知识信息的第二模式图;剪枝网络,包括节点编码器和剪枝层,其中,所述节点编码器,用于根据所述图像
、
所述问题文本以及各个节点的类型提取节点的嵌入向量;所述剪枝层,用于根据每个节点的嵌入向量与多模态上下文特征的相似性和每个节点与关键节点的距离的加权和对第二模式图进行剪枝,得到第三模式图,其中,所述多模态上下文特征是交叉对图像和文本提取特征所得到的融合特征,所述关键节点为从所述图像和问题文本中提取的节点;路径推理网络,包括路径编码器
、
双线性层和输出层,其中,路径编码器,用于基于从第三模式图提取的多条候选推理路径,根据问题文本的文本特征
、
图像的图像特征和每条候选推理路径上各节点的嵌入向量的拼接向量确定该条候选推理路径的嵌入向量,双线性层,用于确定各候选推理路径的嵌入向量与多模态上下文特征的匹配概率,输出层,用于根据各候选推理路径对应的匹配概率确定推理结果
。2.
根据权利要求1所述的系统,其特征在于,模式图构建模块被配置为:从所述问题文本中提取多个关键词及其关系,所述关键词为名词
、
动词
、
形容词
、
副词和短语中的任意一种;将多个关键词及其关系与所述知识库中的实体和关系进行第一次匹配,根据第一次匹配到的实体和关系创建含有文本节点及其关系的初始的模式图;对所述图像中的对象和关系进行识别,将识别到的对象和关系与所述知识库中的实体和关系进行第二次匹配,将第二次匹配到的实体和关系添加到初始的模式图中,得到所述第一模式图,所述第一模式图含有文本节点
、
图像节点及其关系;从所述知识库中,检索第一模式图中节点的两跳内的邻居节点;将检索到的邻居节点及其关系添加到所述第一模式图上,得到所述第二模式图
。3.
根据权利要求2所述的系统,其特征在于,知识库是
ConceptNet
知识图谱或者
Freebase
知识图谱
。4.
根据权利要求2所述的系统,其特征在于,所述节点编码器被配置为:获取第一嵌入模型从问题文本提取文本特征
、
从图像提取图像特征以及从文本和图像提取多模态上下文特征;获取第二嵌入模型对融合文本提取的融合文本特征,所述融合文本是对所述问题文本和从节点扩展的邻居节点对应的文本拼接得到的;针对每个节点,利用至少一层感知机根据所述多模态上下文特征
、
该节点对应的实体特征
、
该节点的类型...
【专利技术属性】
技术研发人员:王树徽,甘婧儒,韩歆哲,黄庆明,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。