一种问题图像三元组结构化引导的视觉问答方法和装置制造方法及图纸

技术编号:38159217 阅读:7 留言:0更新日期:2023-07-13 09:30
本发明专利技术涉及了一种问题图像三元组结构化引导的视觉问答方法和装置,该方法包括:获取目标图像和针对目标图像的目标问题;利用第一目标模型提取目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;利用第二目标模型分别提取目标图像的多个图像属性三元组特征;利用目标注意力模型分别确定各个图像属性三元组特征与各个问题属性三元组特征的第一相关度,并将多个第一相关度组成属性注意力权重矩阵;将目标图像属性三元组特征、目标图像关系三元组特征以及问题全局特征进行拼接后输入目标答案分类器中,得到目标问题的答案信息。本方案在保证问题三元组的顺序结构下实现了多模态特征对齐和融合,提高了输出答案的准确度。输出答案的准确度。输出答案的准确度。

【技术实现步骤摘要】
一种问题图像三元组结构化引导的视觉问答方法和装置


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种问题图像三元组结构化引导的视觉问答方法和装置。

技术介绍

[0002]视觉问答是指给计算机输入一张图片,提问者根据图片提出问题,计算机需要理解图片和问题并给出答案。视觉问答包含两种输入模态,一种是视觉模态,视觉包含丰富的场景信息;另一种是语言模态,包含对事物的抽象理解和高度总结。因此,视觉问答既要求对视觉信息进行充分理解,又要求把语言信息融会贯通。
[0003]目前视觉问答算法的基本思路是:首先提取图像特征和文本特征,其次再进行特征融合或特征对齐,最后将融合后的特征送入分类器中得到最终答案。
[0004]专利技术人在研究相关技术的过程中发现,视觉问答任务中的问题作为输入数据中重要的一部分,承担着视觉问答任务中引导者的角色,所以对问题的解析尤为重要。然而现有算法对问题的解析停留在单词或短语级别,语义信息和文本结构并没有被充分利用。图像丰富的语义表达是实现视觉问答任务的关键,而现有算法通常采用传统目标检测模型来提取图像特征,容易出现过多的噪声,且所提取的特征语义关系较弱。
[0005]这些问题导致目前的视觉问答任务所得到的答案准确度较低。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题之一。
[0007]为此,本专利技术第一方面提出一种问题图像三元组结构化引导的视觉问答方法,所述方法包括:
[0008]获取目标图像和针对所述目标图像的目标问题;
[0009]利用第一目标模型提取所述目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;所述属性三元组为表征对象的语义的三个字段,所述关系三元组为表征对象的关系的三个字段;
[0010]利用第二目标模型分别提取所述目标图像的多个图像属性三元组特征,并利用第三目标模型分别提取所述目标图像的多个图像关系三元组特征;
[0011]利用目标注意力模型分别确定各个所述图像属性三元组特征与各个所述问题属性三元组特征的第一相关度,并将多个所述第一相关度组成属性注意力权重矩阵;以及利用目标注意力模型分别确定各个所述图像关系三元组特征与各个所述问题关系三元组特征的第二相关度,并将多个所述第二相关度组成关系注意力权重矩阵;
[0012]分别将所述属性注意力权重矩阵与各个所述图像属性三元组特征相乘,得到目标图像属性三元组特征,并分别将所述关系注意力权重矩阵与各个所述图像关系三元组特征相乘,得到目标图像关系三元组特征;
[0013]将所述目标图像属性三元组特征、所述目标图像关系三元组特征以及所述问题全
局特征进行拼接后输入目标答案分类器中,得到所述目标问题的答案信息。
[0014]可选的,所述利用目标注意力模型分别确定各个所述图像属性三元组特征与各个所述问题属性三元组特征的第一相关度,并将多个所述第一相关度组成属性注意力权重矩阵,包括:
[0015]将所述问题属性三元组特征与所述图像属性三元组特征进行维度对齐;
[0016]计算所述多个问题属性三元组特征与所述多个图像属性三元组特征两两之间的内积,并对所述内积进行归一化,得到所述图像属性三元组特征与所述问题属性三元组特征的第一相关度;
[0017]将多个所述第一相关度组合起来得到属性注意力权重矩阵。
[0018]可选的,所述利用第一目标模型提取所述目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征,包括:
[0019]将所述目标问题切分为多个词元,并将所述多个词元编码为多个特征向量;
[0020]将所述多个特征向量输入第一模型的问题编码层,获取所述多个词元之间的语义关系,得到所述目标问题的问题全局特征;
[0021]将所述问题全局特征输入所述第一模型的三元组解码层,得到所述目标问题的多个问题属性三元组特征和多个问题关系三元组特征
[0022]可选的,所述第一目标模型、所述第二目标模型、所述第三目标模型、所述目标注意力模型、所述目标答案分类器的训练方法如下:
[0023]获取训练集数据;所述训练集数据包括样本问题及样本图像,以及所述样本问题的三元组特征标签、所述样本图像的三元组特征标签;
[0024]利用第一初始模型提取所述样本问题的预测问题全局特征、多个预测问题属性三元组特征和多个预测问题关系三元组特征;
[0025]分别确定所述预测问题属性三元组特征、预测问题关系三元组特征和预先标定的所述样本问题的特征标签之间的损失值,得到第一损失值;
[0026]利用第二初始模型分别提取所述样本图像的多个预测图像属性三元组特征,并利用第三初始模型分别提取所述样本图像的多个预测图像关系三元组特征;
[0027]利用目标注意力模型分别确定各个所述预测图像属性三元组特征与各个所述预测问题属性三元组特征的预测第一相关度,并将多个所述预测第一相关度组成预测属性注意力权重矩阵;以及利用目标注意力模型分别确定各个所述预测图像关系三元组特征与各个所述预测问题关系三元组特征的预测第二相关度,并将多个所述预测第二相关度组成预测关系注意力权重矩阵;
[0028]分别确定所述预测属性注意力权重矩阵、预测关系注意力权重矩阵和预先标定的目标注意力矩阵标签之间的损失值,得到第二损失值;
[0029]分别将所述目标预测属性注意力权重矩阵与各个所述预测图像属性三元组特征相乘,得到目标预测图像属性三元组特征,并分别将所述目标预测关系注意力权重矩阵与各个所述预测图像关系三元组特征相乘,得到目标预测图像关系三元组特征;
[0030]将所述目标预测图像属性三元组特征、所述目标预测图像关系三元组特征以及所述预测问题全局特征拼接后输入初始答案分类器中,得到所述样本问题的预测答案;
[0031]确定所述预测答案和预先标定的目标答案标签之间的损失值,得到第三损失值;
[0032]将所述第一损失值、所述第二损失值和所述第三损失值的和作为目标损失值;
[0033]在所述目标损失值大于预设损失值阈值的情况下,修改所述第一初始模型、所述第二初始模型、所述第三初始模型、所述初始注意力模型、所述初始答案分类器的参数,重新进行训练,直到所述目标损失值小于所述预设损失值阈值,得到第一目标模型、第二目标模型、第三目标模型、目标注意力模型和目标答案分类器。
[0034]可选的,所述将所述目标预测图像属性三元组特征、所述目标预测图像关系三元组特征以及所述预测问题全局特征拼接后输入初始答案分类器中,得到所述样本问题的预测答案,包括:
[0035]将所述目标预测图像属性三元组特征、所述目标预测图像关系三元组特征以及所述预测问题全局特征拼接后输入初始答案分类器中,得到所述样本问题的多个候选答案和所述候选答案的预测得分;
[0036]利用问题类型分类器确定所述目标问题的类型,所述类型包括验证型问题和查询型问题;所述验证型问题的答案空间包括是和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问题图像三元组结构化引导的视觉问答方法,其特征在于,所述方法包括:获取目标图像和针对所述目标图像的目标问题;利用第一目标模型提取所述目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;所述属性三元组为表征对象的语义的三个字段,所述关系三元组为表征对象的关系的三个字段;利用第二目标模型分别提取所述目标图像的多个图像属性三元组特征,并利用第三目标模型分别提取所述目标图像的多个图像关系三元组特征;利用目标注意力模型分别确定各个所述图像属性三元组特征与各个所述问题属性三元组特征的第一相关度,并将多个所述第一相关度组成属性注意力权重矩阵;以及利用目标注意力模型分别确定各个所述图像关系三元组特征与各个所述问题关系三元组特征的第二相关度,并将多个所述第二相关度组成关系注意力权重矩阵;分别将所述属性注意力权重矩阵与各个所述图像属性三元组特征相乘,得到目标图像属性三元组特征,并分别将所述关系注意力权重矩阵与各个所述图像关系三元组特征相乘,得到目标图像关系三元组特征;将所述目标图像属性三元组特征、所述目标图像关系三元组特征以及所述问题全局特征进行拼接后输入目标答案分类器中,得到所述目标问题的答案信息。2.根据权利要求1所述的方法,其特征在于,所述利用目标注意力模型分别确定各个所述图像属性三元组特征与各个所述问题属性三元组特征的第一相关度,并将多个所述第一相关度组成属性注意力权重矩阵,包括:将所述问题属性三元组特征与所述图像属性三元组特征进行维度对齐;计算所述多个问题属性三元组特征与所述多个图像属性三元组特征两两之间的内积,并对所述内积进行归一化,得到所述图像属性三元组特征与所述问题属性三元组特征的第一相关度;将多个所述第一相关度组合起来得到属性注意力权重矩阵。3.根据权利要求1所述的方法,其特征在于,所述利用第一目标模型提取所述目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征,包括:将所述目标问题切分为多个词元,并将所述多个词元编码为多个特征向量;将所述多个特征向量输入第一模型的问题编码层,获取所述多个词元之间的语义关系,得到所述目标问题的问题全局特征;将所述问题全局特征输入所述第一模型的三元组解码层,得到所述目标问题的多个问题属性三元组特征和多个问题关系三元组特征。4.根据权利要求1所述的方法,其特征在于,所述第一目标模型、所述第二目标模型、所述第三目标模型、所述目标注意力模型、所述目标答案分类器的训练方法如下:获取训练集数据;所述训练集数据包括样本问题及样本图像,以及所述样本问题的三元组特征标签、所述样本图像的三元组特征标签;利用第一初始模型提取所述样本问题的预测问题全局特征、多个预测问题属性三元组特征和多个预测问题关系三元组特征;分别确定所述预测问题属性三元组特征、预测问题关系三元组特征和预先标定的所述样本问题的特征标签之间的损失值,得到第一损失值;
利用第二初始模型分别提取所述样本图像的多个预测图像属性三元组特征,并利用第三初始模型分别提取所述样本图像的多个预测图像关系三元组特征;利用初始注意力模型分别确定各个所述预测图像属性三元组特征与各个所述预测问题属性三元组特征的预测第一相关度,并将多个所述预测第一相关度组成预测属性注意力权重矩阵;以及利用目标注意力模型分别确定各个所述预测图像关系三元组特征与各个所述预测问题关系三元组特征的预测第二相关度,并将多个所述预测第二相关度组成预测关系注意力权重矩阵;分别确定所述预测属性注意力权重矩阵、预测关系注意力权重矩阵和预先标定的目标注意力矩阵标签之间的损失值,得到第二损失值;分别将所述预测属性注意力权重矩阵与各个所述预测图像属性三元组特征相乘,得到目标预测图像属性三元组特征,并分别将所述预测关系注意力权重矩阵与各个所述预测图像关系三元组特征相乘,得到目标预测图像关系三元组特征;将所述目标预测图像属性三元组特征、所述目标预测图像关系三元组特征以及所述预测问题全局特征拼接后输入初始答案分类器中,得到所述样本问题的预测答案;确定所述预测答案和预先标定的目标答案标签之间的损失值,得到第三损失值;将所述第一损失值、所述第二损失值和所述第三损失值的和作为目标损失值;在所述目标损失值大于预设损失值阈值的情况下,修改所述第一初始模型、所述第二初始模型、所述第三初始模型、所述初始注意力模型、所述初始答案分类器的参数,重新进行训练,直到所述目标损失值小于所述预设损失值阈值,得到第一目标模型、第二目标模型、第三目标模型、目标注意力模型和目标答案分类器。5.根据权利要求4所述的方法,其特征在于,所述将所述目标预测图像属...

【专利技术属性】
技术研发人员:谢雪梅李锦航韩泽芳方冕刘勇
申请(专利权)人:琶洲实验室黄埔
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1