一种视觉问答处理方法、系统、存储介质及电子设备技术方案

技术编号：38156248 阅读：11 留言：0更新日期：2023-07-13 09:24

本申请公开了一种视觉问答处理方法、系统、存储介质及电子设备，获取待处理图像，待处理图像为未进行特征提取的图像，通过预设提取网络，从待处理图像中提取视觉特征和语义特征，通过预设知识推理方式，对视觉特征和语义特征进行推理，得到显式知识增强表示和隐式知识增强表示，通过预设信息增强方式，对显式知识增强表示和隐式知识增强表示进行相互信息增强，得到显式特征表征和隐式特征表征，根据预设处理方式，对显式特征表征和隐式特征表征进行处理，得到概率分布向量，概率分布向量表征在视觉问答的过程中，所有候选答案中概率最大的分布向量。大的分布向量。大的分布向量。

全部详细技术资料下载

【技术实现步骤摘要】
一种视觉问答处理方法、系统、存储介质及电子设备

[0001]本申请涉及图像处理
，更具体地说，涉及一种视觉问答处理方法、系统、存储介质及电子设备。

技术介绍

[0002]知识的视觉问答（Knowledge
‑
based Visual Question Answering）是计算机视觉方向一个特别重要的组成部分和研究领域。它的任务是根据给定的图片、问题以及外部知识，对问题进行准确的回答。
[0003]目前，现有的基于知识的视觉问答的方法包括基于深度学习的视觉问答方法和基于视觉
‑
语言预训练的视觉问答方法。上述方法虽然考虑了对图像的视觉方面信息的利用，但是当图像中包含有视觉上不显眼或不可见的对象时，会导致现有知识的视觉问答的方法准确性降低。
[0004]因此，如何提高知识的视觉问答的准确性，是本申请亟需解决的问题。

技术实现思路

[0005]有鉴于此，本申请公开了一种视觉问答处理方法、系统、存储介质及电子设备，旨在提高知识的视觉问答的准确性和鲁棒性。
[0006]为了实现上述目的，其公开的技术方案如下：本申请第一方面公开了一种视觉问答处理方法，所述方法包括：获取待处理图像；所述待处理图像为未进行特征提取的图像；通过预设提取网络，从所述待处理图像中提取视觉特征和语义特征；通过预设知识推理方式，对所述视觉特征和所述语义特征进行推理，得到显式知识增强表示和隐式知识增强表示；通过预设信息增强方式，对所述显式知识增强表示和所述隐式知识增强表示进行相互...

【技术保护点】

【技术特征摘要】
1.一种视觉问答处理方法，其特征在于，所述方法包括：获取待处理图像；所述待处理图像为未进行特征提取的图像；通过预设提取网络，从所述待处理图像中提取视觉特征和语义特征；通过预设知识推理方式，对所述视觉特征和所述语义特征进行推理，得到显式知识增强表示和隐式知识增强表示；通过预设信息增强方式，对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强，得到显式特征表征和隐式特征表征；根据预设处理方式，对所述显式特征表征和所述隐式特征表征进行处理，得到概率分布向量；所述概率分布向量表征在视觉问答的过程中，所有候选答案中概率最大的分布向量。2.根据权利要求1所述的方法，其特征在于，所述通过预设提取网络，从所述待处理图像中提取视觉特征和语义特征，包括：将卷积神经网络作为视觉特征提取器，并通过所述视觉特征提取器，从所述待处理图像中提取视觉特征；将图片描述生成网络作为语义特征提取器，并通过所述语义特征提取器，从所述待处理图像中提取语义特征。3.根据权利要求1所述的方法，其特征在于，所述视觉特征包括视觉对象区域和视觉对象标签，所述语义特征包括图片描述实体，所述通过预设知识推理方式，对所述视觉特征和所述语义特征进行推理，得到显式知识增强表示和隐式知识增强表示，包括：将所述图片描述实体、所述视觉对象标签和问题实体显式链接到知识图谱，得到知识三元组，并将所述知识三元组输入至显式知识推理网络，得到显式知识增强表示；将所述图片描述实体、所述视觉对象区域和问题实体输入至预训练的多模态模型，得到隐式知识增强表示。4.根据权利要求3所述的方法，其特征在于，预训练多模态模型的过程，包括：通过视觉问答数据集，对多模态模型进行预训练；将预训练后的多模态模型确定为隐式知识推理网络。5.根据权利要求1所述的方法，其特征在于，所述通过预设信息增强方式，对所述显式知识增强表示和所述隐式知识增强表示进行相互信息增强，得到显式特征表征和隐式特征表征，包括：通过矩阵乘法方式，将所述隐式知识增强表示对所述显式知识增强表示进行信息增强，得到显式特征表征；通过注...

【专利技术属性】
技术研发人员：刘淇，冯彬，阮书岚，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人