视觉问答方法、装置、设备及存储介质制造方法及图纸

技术编号：35608563 阅读：16 留言：0更新日期：2022-11-16 15:31

本发明专利技术涉及人工智能技术，揭露了一种视觉问答方法，包括：提取参考图像的参考图像特征，基于参考图像特征及参考问答构建标准参考数据集合，获取包含待预测图像及待预测问题的待预测视觉数据，提取所述待预测图像的样本图像特征，基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答，利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合，得到融合特征，对所述融合特征进行特征预测，得到预测结果。此外，本发明专利技术还涉及区块链技术，所述预测结果可存储在区块链的节点中。本发明专利技术还提出一种视觉问答装置、电子设备以及可读存储介质。本发明专利技术可以提高视觉问答中预测结果的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种视觉问答方法、装置、电子设备及可读存储介质。

技术介绍

[0002]视觉问答(Visual Question Answering，VQA)是一种涉及计算机视觉和自然语言处理的多模态学习任务。VQA系统需要将图片和问题作为输入，提取图像与问题文本的特征以及他们之间的关联，输出一个比较合理的预测答案。
[0003]智能视觉问答系统需能够提取图像、问题文本两种模态信息各自的特征以及他们的关联，才能输出较为准确的回答。现有技术中主要是先将模型在收集的视觉问答数据集中训练完成后，使用在验证集上准确度最高的模型进行预测，然而在预测的过程中没有重复利用到数据集中相似的样本参考信息，从而导致预测结果准确率较低。

技术实现思路

[0004]本专利技术提供一种视觉问答方法、装置、电子设备及可读存储介质，其主要目的在于提高视觉问答中预测结果的准确率。
[0005]为实现上述目的，本专利技术提供的一种视觉问答方法，包括：
[0006]获取包含参考图像及参考问答的原始参考数据集合，提取所述参考图像的参考图像特征，基于所述参考图像特征及所述参考问答构建标准参考数据集合；
[0007]获取包含待预测图像及待预测问题的待预测视觉数据，提取所述待预测图像的样本图像特征，基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答；
[0008]利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法，其特征在于，所述方法包括：获取包含参考图像及参考问答的原始参考数据集合，提取所述参考图像的参考图像特征，基于所述参考图像特征及所述参考问答构建标准参考数据集合；获取包含待预测图像及待预测问题的待预测视觉数据，提取所述待预测图像的样本图像特征，基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答；利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合，得到融合特征；对所述融合特征进行特征预测，得到预测结果。2.如权利要求1所述的视觉问答方法，其特征在于，所述提取所述参考图像的参考图像特征，基于所述参考图像特征及所述参考问答构建标准参考数据集合，包括：利用预设的图像编码器提取所述原始参考数据集合中参考图像的参考图像特征，并将所述参考图像特征和所述参考图像对应的参考问答进行关联；汇总所有关联的参考图像特征及所述参考问答构建所述标准参考数据集合。3.如权利要求1中所述的视觉问答方法，其特征在于，所述提取所述待预测图像的样本图像特征，基于所述样本图像特征匹配所述标准参考数据集合中的目标参考问答，包括：利用所述图像编码器提取所述待预测图像的样本图像特征；逐一计算所述样本图像特征与所述标准参考数据集合中参考图像特征的相似度；确定所述相似度大于预设相似阈值的参考图像特征为匹配到的目标图像特征，并将所述目标图像特征对应的参考问答作为所述目标参考问答。4.如权利要求3所述的视觉问答方法，其特征在于，通过下述公式计算样本图像特征与所述标准参考数据集合中参考图像特征的相似度：其中，cos(A,B)表示样本图像特征A与参考图像特征B的相似度，n表示特征维度，a
i
表示样本图像特征A中的第i维特征向量，b
i
表示样本图像特征B中的第i维特征向量。5.如权利要求1所述的视觉问答方法，其特征在于，所述利用预构建的多模态特征融合网络对所述待预测问题、所述样本图像特征及所述目标参考问答进行特征融合之前，所述方法还包括：将预设的第一自注意力模块、预设的第一交叉注意力模块及预设的第一前向传播模块进行串联，得到图像处理子网络；将预设的第二自注意力模块、预设的第二交叉注意力模块及预设的第二前向传播模块进行串联，得到文本处理子网络；将所述第一...

【专利技术属性】
技术研发人员：唐小初，黎铭，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人