视觉问答方法、装置、设备及存储介质制造方法及图纸

技术编号:35608563 阅读:16 留言:0更新日期:2022-11-16 15:31
本发明专利技术涉及人工智能技术,揭露了一种视觉问答方法,包括:提取参考图像的参考图像特征,基于参考图像特征及参考问答构建标准参考数据集合,获取包含待预测图像及待预测问题的待预测视觉数据,提取所述待预测图像的样本图像特征,基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答,利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合,得到融合特征,对所述融合特征进行特征预测,得到预测结果。此外,本发明专利技术还涉及区块链技术,所述预测结果可存储在区块链的节点中。本发明专利技术还提出一种视觉问答装置、电子设备以及可读存储介质。本发明专利技术可以提高视觉问答中预测结果的准确率。率。率。

【技术实现步骤摘要】
视觉问答方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种视觉问答方法、装置、电子设备及可读存储介质。

技术介绍

[0002]视觉问答(Visual Question Answering,VQA)是一种涉及计算机视觉和自然语言处理的多模态学习任务。VQA系统需要将图片和问题作为输入,提取图像与问题文本的特征以及他们之间的关联,输出一个比较合理的预测答案。
[0003]智能视觉问答系统需能够提取图像、问题文本两种模态信息各自的特征以及他们的关联,才能输出较为准确的回答。现有技术中主要是先将模型在收集的视觉问答数据集中训练完成后,使用在验证集上准确度最高的模型进行预测,然而在预测的过程中没有重复利用到数据集中相似的样本参考信息,从而导致预测结果准确率较低。

技术实现思路

[0004]本专利技术提供一种视觉问答方法、装置、电子设备及可读存储介质,其主要目的在于提高视觉问答中预测结果的准确率。
[0005]为实现上述目的,本专利技术提供的一种视觉问答方法,包括:
[0006]获取包含参考图像及参考问答的原始参考数据集合,提取所述参考图像的参考图像特征,基于所述参考图像特征及所述参考问答构建标准参考数据集合;
[0007]获取包含待预测图像及待预测问题的待预测视觉数据,提取所述待预测图像的样本图像特征,基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答;
[0008]利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合,得到融合特征;
[0009]对所述融合特征进行特征预测,得到预测结果。
[0010]可选地,所述提取所述参考图像的参考图像特征,基于所述参考图像特征及所述参考问答构建标准参考数据集合,包括:
[0011]利用预设的图像编码器提取所述原始参考数据集合中参考图像的参考图像特征,并将所述参考图像特征和所述参考图像对应的参考问答进行关联;
[0012]汇总所有关联的参考图像特征及所述参考问答构建所述标准参考数据集合。
[0013]可选地,所述提取所述待预测图像的样本图像特征,基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答,包括:
[0014]利用所述图像编码器提取所述待预测图像的样本图像特征;
[0015]逐一计算所述样本图像特征与所述标准参考数据集合中参考图像特征的相似度;
[0016]确定所述相似度大于预设相似阈值的参考图像特征为匹配到的目标图像特征,并将所述目标图像特征对应的参考问答作为所述目标参考问答。
[0017]可选地,通过下述公式计算样本图像特征与所述标准参考数据集合中参考图像特
征的相似度:
[0018][0019]其中,cos(A,B)表示样本图像特征A与参考图像特征B的相似度,n表示特征维度,a
i
表示样本图像特征A中的第i维特征向量,b
i
表示样本图像特征B中的第i维特征向量。
[0020]可选地,所述利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合之前,所述方法还包括:
[0021]将预设的第一自注意力模块、预设的第一交叉注意力模块及预设的第一前向传播模块进行串联,得到图像处理子网络;
[0022]将预设的第二自注意力模块、预设的第二交叉注意力模块及预设的第二前向传播模块进行串联,得到文本处理子网络;
[0023]将所述第一自注意力模块与所述第二交叉注意力模块进行串联处理,以及将所述第二自注意力模块与所述第一交叉注意力模块进行串联处理;
[0024]将串联处理后的图像处理子网络及文本处理子网络作为模态融合子网络,对所述模态融合子网络进行预设次数的堆叠,得到所述多模态特征融合网络。
[0025]可选地,所述利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合,得到融合特征,包括:
[0026]分别对所述待预测问题及所述目标参考问答进行分词处理及向量化处理,得到向量化信息;
[0027]利用预设的文本编码器提取所述向量化信息中的文本特征;
[0028]利用所述多模态特征融合网络对所述文本特征及所述样本图像特征进行特征交互,得到标准文本特征及标准图像特征;
[0029]按照预设的通道维度将所述标准文本特征及所述标准图像特征进行特征融合,得到所述融合特征。
[0030]可选地,所述对所述融合特征进行特征预测,得到预测结果,包括:
[0031]利用预设层数的全连接层对所述融合特征进行特征预测,得到预测标签;
[0032]将所述预测标签对应的预测答案作为所述预测结果。
[0033]为了解决上述问题,本专利技术还提供一种视觉问答装置,所述装置包括:
[0034]参考数据构建模块,用于获取包含参考图像及参考问答的原始参考数据集合,提取所述参考图像的参考图像特征,基于所述参考图像特征及所述参考问答构建标准参考数据集合;
[0035]特征匹配模块,用于获取包含待预测图像及待预测问题的待预测视觉数据,提取所述待预测图像的样本图像特征,基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答;
[0036]特征融合模块,用于利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合,得到融合特征;
[0037]特征预测模块,用于对所述融合特征进行特征预测,得到预测结果。
[0038]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0039]存储器,存储至少一个计算机程序;及
[0040]处理器,执行所述存储器中存储的计算机程序以实现上述所述的视觉问答方法。
[0041]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的视觉问答方法。
[0042]本专利技术通过提取参考图像的参考图像特征,基于参考图像特征及参考问答构建标准参考数据集合,从而在预测过程中能够充分利用标准参考数据集合中相似样本的信息,并利用预构建的多模态特征融合网络将目标参考问答进行特征融合融入预测过程之中,提高了预测精度与准确度。并且,通过引入多模态特征融合网络,可以加强文本特征与图像特征两种不同模态信息之间的交互,从而充分利用两种模态信息进行预测,进一步提高预测精度及准确度。因此本专利技术提出的视觉问答方法、装置、电子设备及计算机可读存储介质,可以提高视觉问答中预测结果的准确率。
附图说明
[0043]图1为本专利技术一实施例提供的视觉问答方法的流程示意图;
[0044]图2为本专利技术一实施例提供的视觉问答装置的功能模块图;
[0045]图3为本专利技术一实施例提供的实现所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法,其特征在于,所述方法包括:获取包含参考图像及参考问答的原始参考数据集合,提取所述参考图像的参考图像特征,基于所述参考图像特征及所述参考问答构建标准参考数据集合;获取包含待预测图像及待预测问题的待预测视觉数据,提取所述待预测图像的样本图像特征,基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答;利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合,得到融合特征;对所述融合特征进行特征预测,得到预测结果。2.如权利要求1所述的视觉问答方法,其特征在于,所述提取所述参考图像的参考图像特征,基于所述参考图像特征及所述参考问答构建标准参考数据集合,包括:利用预设的图像编码器提取所述原始参考数据集合中参考图像的参考图像特征,并将所述参考图像特征和所述参考图像对应的参考问答进行关联;汇总所有关联的参考图像特征及所述参考问答构建所述标准参考数据集合。3.如权利要求1中所述的视觉问答方法,其特征在于,所述提取所述待预测图像的样本图像特征,基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答,包括:利用所述图像编码器提取所述待预测图像的样本图像特征;逐一计算所述样本图像特征与所述标准参考数据集合中参考图像特征的相似度;确定所述相似度大于预设相似阈值的参考图像特征为匹配到的目标图像特征,并将所述目标图像特征对应的参考问答作为所述目标参考问答。4.如权利要求3所述的视觉问答方法,其特征在于,通过下述公式计算样本图像特征与所述标准参考数据集合中参考图像特征的相似度:其中,cos(A,B)表示样本图像特征A与参考图像特征B的相似度,n表示特征维度,a
i
表示样本图像特征A中的第i维特征向量,b
i
表示样本图像特征B中的第i维特征向量。5.如权利要求1所述的视觉问答方法,其特征在于,所述利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合之前,所述方法还包括:将预设的第一自注意力模块、预设的第一交叉注意力模块及预设的第一前向传播模块进行串联,得到图像处理子网络;将预设的第二自注意力模块、预设的第二交叉注意力模块及预设的第二前向传播模块进行串联,得到文本处理子网络;将所述第一...

【专利技术属性】
技术研发人员:唐小初黎铭舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1