视觉问答的方法、装置、设备及介质制造方法及图纸

技术编号:34818559 阅读:20 留言:0更新日期:2022-09-03 20:29
本发明专利技术涉及人工智能技术领域,公开了一种视觉问答的方法、装置、设备及介质,包括:获取视觉问答任务对应的目标问句和目标图像;对目标问句进行特征提取得到目标问句对应的句向量和词向量,和,对目标图像进行特征提取得到目标图像对应的图像向量和图像块向量;将句向量和图像块向量同时输入视觉问答模型的多模态交互学习部分,得到目标问句对应的问句交互向量;和,将图像向量和词向量同时输入视觉问答模型的多模态交互学习部分,得到目标图像对应的图像交互向量;通过视觉问答模型的分类单元,根据图像交互向量和问句交互向量,得到视觉问答任务的答案。提升视觉问答任务的答案的准确率。准确率。准确率。

【技术实现步骤摘要】
视觉问答的方法、装置、设备及介质


[0001]本专利技术涉及人工智能技术、自然语言处理
,尤其涉及一种视觉问答的方法、装置、设备及介质。

技术介绍

[0002]随着计算机视觉技术以及自然语言处理技术的不断发展,使得研究领域变得越来越深入,视觉问答(VisualQuestionAnswering,VQA)是最近几年出现的一个新任务,视觉问答任务为向视觉问答系统的输入为一张图像和一个关于这张图像形式自由、开放式的自然语言问题,经过系统处理后提供一个准确的自然语言答案作为输出,也即是基于一张图像的问答处理。因此视觉问答系统不仅要理解文字形式提出的问题,还需要进行图像处理并结合图像的内容进行解答。
[0003]总结来说,虽然目前的视觉问答研究取得了一些成就,但是就目前发展形势来看,还是面临有一定的发展局限性,主要有以下两个问题:
[0004](1)推理能力不强。由于大多数VQA方法会将视觉图像数据、文本问题数据,做特征提取后再在最后阶段拼接起来,结合答案标签建立模型进行训练。不能够将问题语义具有的特征和图片像特征较完美的融合起来,导致高层次的逻辑推理出现时,模型往往不能给出正确的预测。
[0005](2)深度学习的不可解释性。这是深度学习共同的问题,尽管深度学习目前被广泛应用,但是其不可解释性也是深度学习继续发展的局限,没法较好地对视觉信号、问题的文本信号进行有效的交互理解和建模。

技术实现思路

[0006]本专利技术提供一种视觉问答的方法、装置、计算机设备及介质,以解决将文本特征和图像特征进行交互学习,继而实现对答案的更有效准确的预测。
[0007]第一方面,提供了一种视觉问答的方法,包括:
[0008]获取视觉问答任务对应的目标问句和目标图像;
[0009]通过预训练好的视觉问答模型的特征提取部分,对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量,和,对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量;
[0010]将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分,得到所述目标问句对应的问句交互向量;
[0011]将图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分,根据所述词向量分配所述图像向量特征提取的注意力权重,得到所述目标图像对应的图像交互向量;
[0012]通过所述视觉问答模型的分类单元,根据所述图像交互向量和所述问句交互向量,得到所述视觉问答任务的答案。
[0013]第二方面,提供了一种视觉问答的装置,包括:
[0014]获取单元,用于获取视觉问答任务对应的目标问句和目标图像;
[0015]特征提取模块,用于通过预训练好的视觉问答模型的特征提取部分,对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量,和,对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量;
[0016]句向量编码单元,用于将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分,得到所述目标问句对应的问句交互向量;
[0017]图向量编码单元,用于将图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分,根据所述词向量分配所述图像向量特征提取的注意力权重,得到所述目标图像对应的图像交互向量;
[0018]结果输出单元,用于通过所述视觉问答模型的分类单元,根据所述图像交互向量和所述问句交互向量,得到所述视觉问答任务的答案。
[0019]第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述视觉问答的方法的步骤。
[0020]第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述视觉问答的方法的步骤。
[0021]上述视觉问答的方法、装置、计算机设备及存储介质所实现的方案中,可以获取视觉问答任务对应的目标问句和目标图像;通过预训练好的视觉问答模型的特征提取部分,对目标问句进行特征提取得到目标问句对应的句向量和词向量,和,对目标图像进行特征提取得到目标图像对应的图像向量和图像块向量;将句向量和图像块向量同时输入视觉问答模型的多模态交互学习部分,得到目标问句对应的问句交互向量;将图像向量和词向量同时输入视觉问答模型的多模态交互学习部分,得到目标图像对应的图像交互向量;通过视觉问答模型的分类单元,根据图像交互向量和问句交互向量,得到视觉问答任务的答案。在本专利技术中,对目标问句和目标图像分别进行第一次特征提取,得到全句特征向量、句子中的词向量以及图片的全图向量和图像块向量,将视觉图像和文本问题信息更好地交互式理解和学习,从而提升了得到的所述视觉问答任务的答案的准确率。
附图说明
[0022]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术一实施例中视觉问答的方法的一应用环境示意图;
[0024]图2是本专利技术一实施例中视觉问答的方法的一流程示意图;
[0025]图3是图2中步骤S20的一具体实施方式流程示意图;
[0026]图4是图2中步骤S20的一具体实施方式流程示意图;
[0027]图5是本专利技术一实施例中视觉问答的方法的另一流程示意图;
[0028]图6是seq2seq模型一结构示意图;
[0029]图7是Transformer模型整体架构结构示意图;
[0030]图8是本专利技术一实施例中视觉问答的装置的一结构示意图;
[0031]图9是本专利技术一实施例中计算机设备的一结构示意图;
[0032]图10是本专利技术一实施例中计算机设备的另一结构示意图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]本专利技术实施例提供的视觉问答的方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端可以通过客户端接收用户问句和图像;通过预训练好的视觉问答模型的特征提取部分,对目标问句进行特征提取得到目标问句对应的句向量和词向量,和,对目标图像进行特征提取得到目标图像对应的图像向量和图像块向量;将句向量和图像块向量同时输入视觉问答模型的多模态交互学习部分,得到目标问句对应的问句交互向量;将图像向量和词向量同时输入视觉问答模型的多模态交互学习部分,得到目标图像对应的图像交互向量;通过视觉问答模型的分类单元,根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答的方法,其特征在于,包括:获取视觉问答任务对应的目标问句和目标图像;通过预训练好的视觉问答模型的特征提取部分,对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量,和,对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量;将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分,得到所述目标问句对应的问句交互向量;和,将所述图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分,得到所述目标图像对应的图像交互向量;通过所述视觉问答模型的分类单元,根据所述图像交互向量和所述问句交互向量,得到所述视觉问答任务的答案。2.如权利要求1所述的视觉问答的方法,其特征在于,所述特征提取部分包括Transformer模块;所述通过预训练好的视觉问答模型的特征提取部分,对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量,包括:将所述目标问句输入所述Transformer模块,得到所述句向量;对所述目标问句划分为多个分词,将所述分词输入所述Transformer模块,得到所述词向量。3.如权利要求1所述的视觉问答的方法,其特征在于,所述特征提取部分包括视觉Transformer模块;所述通过预训练好的视觉问答模型的特征提取部分,对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量,包括:将所述目标图像输入所述视觉Transformer模块,得到所述图像向量;将所述目标图像划分为多个图像块,将所述多个图像块输入所述视觉Transformer模块,得到所述图像块向量。4.如权利要求1所述的视觉问答的方法,其特征在于,所述将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分,得到所述目标问句对应的问句交互向量,包括:将所述句向量和所述图像块向量同时输入所述基于多头注意力机制的句子特征提取模块,根据所述图像块向量分配所述问句特征提取的注意力权重,得到所述目标图像对应的图像交互向量。5.如权利要求1所述的视觉问答的方法,其特征在于,所述多模态交互学习部分包括基于多头注意力机制的图像特征提取模块;将所述图像向...

【专利技术属性】
技术研发人员:王俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1