当前位置: 首页 > 专利查询>鹏城实验室专利>正文

视觉问答方法技术

技术编号:39825987 阅读:11 留言:0更新日期:2023-12-29 16:01
本申请实施例提供了一种视觉问答方法

【技术实现步骤摘要】
视觉问答方法、系统、电子设备及存储介质


[0001]本申请涉及计算机视觉
,尤其涉及一种视觉问答方法

系统

电子设备及存储介质


技术介绍

[0002]随着人们物质生活水平地提高,可供食用的食材种类和数量都有了显著地增加,由此,使用不同食材制成的食物种类也日益增长

[0003]从个人饮食角度来看,不同健康状况的人对食物的需求是不同的,例如,糖尿病患者要避免食用高血糖的食物

然而,面对丰富多元的食物,人们只能依据自身的经验对食物做出选择,相关技术中基于食物的资料能够得到待识别图像对应问题的解答,然而,这样的方法不适用复杂的视觉问答,并且应用该方法得到的答案往往准确度较低


技术实现思路

[0004]本申请实施例的主要目的在于提出一种视觉问答方法

系统

电子设备及存储介质,能够提高视觉问答的准确性

[0005]为实现上述目的,本申请实施例的第一方面提出了一种视觉问答方法,所述方法包括:获取目标图像,以及所述目标图像对应的自然语言问题;基于所述目标图像和所述自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识;基于所述目标图像和所述自然语言问题进行关联查询,得到相应的隐式知识;将所述隐式知识和所述自然语言问题进行结合,得到目标问题;将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接,得到多模态查询信息;根据所述多模态查询信息和所述候选知识进行注意力机制融合处理,得到细粒度信息;将多模态查询信息与所述细粒度信息进行特征融合,得到目标特征信息,并基于所述目标特征信息进行查询,得到目标答案

[0006]在一些实施例中,所述知识图谱可以通过以下步骤构建得到,所述步骤包括:获取样本名称信息,以及样本名称信息对应的样本图文信息和样本标签信息;基于所述样本名称信息

所述样本图文信息和所述样本标签信息,确定样本数据;根据所述样本数据,生成所述知识图谱

[0007]在一些实施例中,所述样本图文信息包括样本图像;所述基于所述目标图像和所述自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识,包括:计算所述目标图像与所述样本图像的第一相似度,基于所述第一相似度,确定第
一样本图像;从所述自然语言问题中提取得到匹配关键词,并基于所述第一样本图像和所述匹配关键词,得到结构特征信息

类型特征信息和上下文特征信息;连接所述结构特征信息

所述类型特征信息和所述上下文特征信息,得到候选知识

[0008]在一些实施例中,所述基于所述目标图像和所述自然语言问题进行关联查询,得到相应的隐式知识,包括:基于所述第一样本图像,确定第一图像特征,并基于所述匹配关键词,确定第一文本特征;连接所述第一图像特征和所述第一文本特征,得到关联查询信息,将所述关联查询信息输入预设的智能问答模型中,得到隐式知识

[0009]在一些实施例中,所述将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接,得到多模态查询信息,包括:将所述目标问题输入预设的第一学生网络模型中,得到目标文本特征;将所述目标图像输入预设的第二学生网络模型中,得到目标图像特征;拼接所述目标文本特征和所述目标图像特征,得到多模态查询信息

[0010]在一些实施例中,所述第一学生网络模型和所述第二学生网络模型是由教师网络模型训练得到的,所述训练的步骤包括:获取样本问题;将所述样本问题分别输入第一学生网络模型和所述教师网络模型中,基于所述第一学生网络模型得到第一文本特征向量,并基于所述教师网络模型得到的第二文本特征向量;通过所述第一文本特征向量和所述第二文本特征向量计算得到文本特征损失值,依据所述文本特征损失值训练所述第一学生网络模型;将所述样本图像分别输入第二学生网络模型和所述教师网络模型中,基于所述第二学生网络模型得到第一图像特征向量,并基于所述教师网络模型得到的第二图像特征向量;通过所述第一图像特征向量和所述第二图像特征向量计算得到图像特征损失值,依据所述图像特征损失值训练所述第二学生网络模型

[0011]在一些实施例中,所述根据所述多模态查询信息和所述候选知识进行注意力机制融合处理,得到细粒度信息,包括:根据预设的第一参数,确定所述多模态查询信息对应的第一查询信息,以及所述候选知识对应的第一键值对;以所述第一查询信息和第一键值对作为约束条件,对所述多模态查询信息和所述候选知识进行特征融合,得到融合信息;分别对所述多模态查询信息和所述融合信息进行特征增强,得到特征增强后的所述多模态查询信息和所述融合信息;计算特征增强后的所述融合信息和所述多模态查询信息的点积,得到特征分数,并根据所述特征分数,得到更新后的候选知识;
将更新后的所述候选知识和所述多模态查询信息进行特征融合,得到细粒度信息

[0012]在一些实施例中,所述分别对所述多模态查询信息和所述融合信息进行特征增强,得到特征增强后的所述多模态查询信息和所述融合信息,包括:根据预设的第二参数,确定所述多模态查询信息对应的第二查询信息,以及所述融合信息对应的第二键值对;以所述第二查询信息和第二键值对作为约束条件,对所述多模态查询信息进行特征增强,得到特征增强后的所述多模态查询信息;根据预设的第三参数,确定所述融合信息对应的第三查询信息,以及所述多模态查询信息对应的第三键值对;以所述第三查询信息和第三键值对作为约束条件,对所述融合信息进行特征增强,得到特征增强后的所述融合信息

[0013]在一些实施例中,所述基于所述目标特征信息进行查询,得到目标答案,包括:根据预设的第四参数,确定所述目标特征信息的目标查询信息和目标键值对;以所述目标查询信息和所述目标键值对作为约束条件,对所述目标特征信息进行特征增强,得到特征增强后的所述目标特征信息;将所述目标特征信息输入预设的分类器中,以使所述分类器基于特征增强后的所述目标特征信息,得到目标答案

[0014]为实现上述目的,本申请实施例的第二方面提出了一种视觉问答系统,所述系统包括:获取模块,用于获取目标图像,以及所述目标图像对应的自然语言问题;候选知识模块,用于基于所述目标图像和所述自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识;隐式知识模块,用于基于所述目标图像和所述自然语言问题进行关联查询,得到相应的隐式知识;目标问题模块,用于将所述隐式知识和所述自然语言问题进行结合,得到目标问题;多模态查询信息模块,用于将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接,得到多模态查询信息;细粒度信息模块,用于根据所述多模态查询信息和所述候选知识进行注意力机制融合处理,得到细粒度信息;目标答案模块,用于将多模态查询信息与所述细粒度信息进行特征融合,得到目标特征信息,并基于所述目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种视觉问答方法,其特征在于,所述方法包括:获取目标图像,以及所述目标图像对应的自然语言问题;基于所述目标图像和所述自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识;基于所述目标图像和所述自然语言问题进行关联查询,得到相应的隐式知识;将所述隐式知识和所述自然语言问题进行结合,得到目标问题;将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接,得到多模态查询信息;根据所述多模态查询信息和所述候选知识进行注意力机制融合处理,得到细粒度信息;将多模态查询信息与所述细粒度信息进行特征融合,得到目标特征信息,并基于所述目标特征信息进行查询,得到目标答案
。2.
根据权利要求1所述的视觉问答方法,其特征在于,所述知识图谱可以通过以下步骤构建得到,所述步骤包括:获取样本名称信息,以及样本名称信息对应的样本图文信息和样本标签信息;基于所述样本名称信息

所述样本图文信息和所述样本标签信息,确定样本数据;根据所述样本数据,生成所述知识图谱
。3.
根据权利要求2所述的视觉问答方法,其特征在于,所述样本图文信息包括样本图像;所述基于所述目标图像和所述自然语言问题,在预设的知识图谱中进行知识检索,得到候选知识,包括:计算所述目标图像与所述样本图像的第一相似度,基于所述第一相似度,确定第一样本图像;从所述自然语言问题中提取得到匹配关键词,并基于所述第一样本图像和所述匹配关键词,得到结构特征信息

类型特征信息和上下文特征信息;连接所述结构特征信息

所述类型特征信息和所述上下文特征信息,得到候选知识
。4.
根据权利要求3所述的视觉问答方法,其特征在于,所述基于所述目标图像和所述自然语言问题进行关联查询,得到相应的隐式知识,包括:基于所述第一样本图像,确定第一图像特征,并基于所述匹配关键词,确定第一文本特征;连接所述第一图像特征和所述第一文本特征,得到关联查询信息,将所述关联查询信息输入预设的智能问答模型中,得到隐式知识
。5.
根据权利要求4所述的视觉问答方法,其特征在于,所述将所述目标问题对应的目标文本特征和目标图像对应的目标图像特征拼接,得到多模态查询信息,包括:将所述目标问题输入预设的第一学生网络模型中,得到目标文本特征;将所述目标图像输入预设的第二学生网络模型中,得到目标图像特征;拼接所述目标文本特征和所述目标图像特征,得到多模态查询信息
。6.
根据权利要求5所述的视觉问答方法,其特征在于,所述第一学生网络模型和所述第二学生网络模型是由教师网络模型训练得到的,所述训练的步骤包括:
获取样本问题;将所述样本问题分别输入第一学生网络模型和所述教师网络模型中,基于所述第一学生网络模型得到第一文本特征向量,并基于所述教师网络模型得到的第二文本特征向量;通过所述第一文本特征向量和所述第二文本特征向量计算得到文本特征损失值,依据所述文本特征损失值训练所述第一学生网络模型;将所述样本图像分别输入第二学生网络模型和所述教师网络模型中,基于所述第二学生网络模型得到第一图像特征向量,并基于所述教师网络模型得到的第二图像特征向量;通过所述第一图像特征向量和所述第二图像特征向量计算得到图像特征损失值,依...

【专利技术属性】
技术研发人员:胡孟豪宋亚光王耀威杨小汕徐常胜
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1