一种视觉问答处理方法、系统、存储介质及电子设备技术方案

技术编号:38156248 阅读:11 留言:0更新日期:2023-07-13 09:24
本申请公开了一种视觉问答处理方法、系统、存储介质及电子设备,获取待处理图像,待处理图像为未进行特征提取的图像,通过预设提取网络,从待处理图像中提取视觉特征和语义特征,通过预设知识推理方式,对视觉特征和语义特征进行推理,得到显式知识增强表示和隐式知识增强表示,通过预设信息增强方式,对显式知识增强表示和隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征,根据预设处理方式,对显式特征表征和隐式特征表征进行处理,得到概率分布向量,概率分布向量表征在视觉问答的过程中,所有候选答案中概率最大的分布向量。大的分布向量。大的分布向量。

【技术实现步骤摘要】
一种视觉问答处理方法、系统、存储介质及电子设备


[0001]本申请涉及图像处理
,更具体地说,涉及一种视觉问答处理方法、系统、存储介质及电子设备。

技术介绍

[0002]知识的视觉问答(Knowledge

based Visual Question Answering)是计算机视觉方向一个特别重要的组成部分和研究领域。它的任务是根据给定的图片、问题以及外部知识,对问题进行准确的回答。
[0003]目前,现有的基于知识的视觉问答的方法包括基于深度学习的视觉问答方法和基于视觉

语言预训练的视觉问答方法。上述方法虽然考虑了对图像的视觉方面信息的利用,但是当图像中包含有视觉上不显眼或不可见的对象时,会导致现有知识的视觉问答的方法准确性降低。
[0004]因此,如何提高知识的视觉问答的准确性,是本申请亟需解决的问题。

技术实现思路

[0005]有鉴于此,本申请公开了一种视觉问答处理方法、系统、存储介质及电子设备,旨在提高知识的视觉问答的准确性和鲁棒性。
[0006]为了实现上述目的,其公开的技术方案如下:本申请第一方面公开了一种视觉问答处理方法,所述方法包括:获取待处理图像;所述待处理图像为未进行特征提取的图像;通过预设提取网络,从所述待处理图像中提取视觉特征和语义特征;通过预设知识推理方式,对所述视觉特征和所述语义特征进行推理,得到显式知识增强表示和隐式知识增强表示;通过预设信息增强方式,对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征;根据预设处理方式,对所述显式特征表征和所述隐式特征表征进行处理,得到概率分布向量;所述概率分布向量表征在视觉问答的过程中,所有候选答案中概率最大的分布向量。
[0007]优选的,所述通过预设提取网络,从所述待处理图像中提取视觉特征和语义特征,包括:将卷积神经网络作为视觉特征提取器,并通过所述视觉特征提取器,从所述待处理图像中提取视觉特征;将图片描述生成网络作为语义特征提取器,并通过所述语义特征提取器,从所述待处理图像中提取语义特征。
[0008]优选的,所述视觉特征包括视觉对象区域和视觉对象标签,所述语义特征包括图片描述实体,所述通过预设知识推理方式,对所述视觉特征和所述语义特征进行推理,得到
显式知识增强表示和隐式知识增强表示,包括:将所述图片描述实体、所述视觉对象标签和问题实体显式链接到知识图谱,得到知识三元组,并将所述知识三元组输入至显式知识推理网络,得到显式知识增强表示;将所述图片描述实体、所述视觉对象区域和问题实体输入至预训练的多模态模型,得到隐式知识增强表示。
[0009]优选的,预训练多模态模型的过程,包括:通过视觉问答数据集,对多模态模型进行预训练;将预训练后的多模态模型确定为隐式知识推理网络。
[0010]优选的,所述通过预设信息增强方式,对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征,包括:通过矩阵乘法方式,将所述隐式知识增强表示对所述显式知识增强表示进行信息增强,得到显式特征表征;通过注意力机制,将所述显式知识增强表示对所述隐式知识增强表示进行信息增强,得到隐式特征表征。
[0011]优选的,所述根据预设处理方式,对所述显式特征表征和所述隐式特征表征进行处理,得到概率分布向量,包括:通过多层感知机,计算所述显式特征表征在所有候选答案上的概率分布和所述隐式特征表征在所有候选答案上的概率分布;对所述显式特征表征在所有候选答案上的概率分布和所述隐式特征表征在所有候选答案上的概率分布进行取最大值操作,得到概率分布向量。
[0012]本申请第二方面公开了一种视觉问答处理系统,所述系统包括:获取单元,用于获取待处理图像;所述待处理图像为未进行特征提取的图像;提取单元,用于通过预设提取网络,从所述待处理图像中提取视觉特征和语义特征;推理单元,用于通过预设知识推理方式,对所述视觉特征和所述语义特征进行推理,得到显式知识增强表示和隐式知识增强表示;信息增强单元,用于通过预设信息增强方式,对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征;计算单元,用于根据预设处理方式,对所述显式特征表征和所述隐式特征表征进行处理,得到概率分布向量;所述概率分布向量表征在视觉问答的过程中,所有候选答案中概率最大的分布向量。
[0013]优选的,所述提取单元,包括:第一提取模块,用于将卷积神经网络作为视觉特征提取器,并通过所述视觉特征提取器,从所述待处理图像中提取视觉特征;第二提取模块,用于将图片描述生成网络作为语义特征提取器,并通过所述语义特征提取器,从所述待处理图像中提取语义特征。
[0014]本申请第三方面公开了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的视觉问答处理方法。
[0015]本申请第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的视觉问答处理方法。
[0016]经由上述技术方案可知,本申请公开了一种视觉问答处理方法、系统、存储介质及电子设备,获取待处理图像,待处理图像为未进行特征提取的图像,通过预设提取网络,从待处理图像中提取视觉特征和语义特征,通过预设知识推理方式,对视觉特征和语义特征进行推理,得到显式知识增强表示和隐式知识增强表示,通过预设信息增强方式,对显式知识增强表示和隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征,根据预设处理方式,对显式特征表征和隐式特征表征进行处理,得到概率分布向量,概率分布向量表征在视觉问答的过程中,所有候选答案中概率最大的分布向量。通过上述方案,从显式和隐式两个角度,充分利用图片的视觉特征和语义特征进行知识融合和知识推理,得到显式知识增强表示和隐式知识增强表示,并通过互相关的方法对显式知识增强的表示与隐式知识增强的表示进行优化和相互进行信息增强,得到显式特征表征和隐式特征表征,通过显式特征表征和隐式特征表征得到所有候选答案的概率分布,并通过取概率最大值的方式得到的概率分布向量进行视觉问答,从而提高知识的视觉问答的准确性和鲁棒性。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0018]图1为本申请实施例公开的一种视觉问答处理方法的流程示意图;图2为本申请实施例公开的一种视觉问答处理系统的结构示意图;图3为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
[0019]下面将结合本申请实施例中的附图,对本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答处理方法,其特征在于,所述方法包括:获取待处理图像;所述待处理图像为未进行特征提取的图像;通过预设提取网络,从所述待处理图像中提取视觉特征和语义特征;通过预设知识推理方式,对所述视觉特征和所述语义特征进行推理,得到显式知识增强表示和隐式知识增强表示;通过预设信息增强方式,对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征;根据预设处理方式,对所述显式特征表征和所述隐式特征表征进行处理,得到概率分布向量;所述概率分布向量表征在视觉问答的过程中,所有候选答案中概率最大的分布向量。2.根据权利要求1所述的方法,其特征在于,所述通过预设提取网络,从所述待处理图像中提取视觉特征和语义特征,包括:将卷积神经网络作为视觉特征提取器,并通过所述视觉特征提取器,从所述待处理图像中提取视觉特征;将图片描述生成网络作为语义特征提取器,并通过所述语义特征提取器,从所述待处理图像中提取语义特征。3.根据权利要求1所述的方法,其特征在于,所述视觉特征包括视觉对象区域和视觉对象标签,所述语义特征包括图片描述实体,所述通过预设知识推理方式,对所述视觉特征和所述语义特征进行推理,得到显式知识增强表示和隐式知识增强表示,包括:将所述图片描述实体、所述视觉对象标签和问题实体显式链接到知识图谱,得到知识三元组,并将所述知识三元组输入至显式知识推理网络,得到显式知识增强表示;将所述图片描述实体、所述视觉对象区域和问题实体输入至预训练的多模态模型,得到隐式知识增强表示。4.根据权利要求3所述的方法,其特征在于,预训练多模态模型的过程,包括:通过视觉问答数据集,对多模态模型进行预训练;将预训练后的多模态模型确定为隐式知识推理网络。5.根据权利要求1所述的方法,其特征在于,所述通过预设信息增强方式,对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强,得到显式特征表征和隐式特征表征,包括:通过矩阵乘法方式,将所述隐式知识增强表示对所述显式知识增强表示进行信息增强,得到显式特征表征;通过注...

【专利技术属性】
技术研发人员:刘淇冯彬阮书岚
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1