一种视觉问答方法、装置、电子设备、介质及程序产品制造方法及图纸

技术编号:33346985 阅读:18 留言:0更新日期:2022-05-08 09:44
本申请提供了一种视觉问答方法、装置、电子设备、介质及程序产品,涉及视觉问答技术领域,旨在提供一种自适应推理步数、推理过程可解释性强的视觉问答方法。所述方法包括:获得图像和原始问题;根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,直到所述原始问题中的各个词语所关联的子问题都已解答为止,停止子问题生成,其中,每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的;根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案。述原始问题的答案。述原始问题的答案。

【技术实现步骤摘要】
一种视觉问答方法、装置、电子设备、介质及程序产品


[0001]本申请涉及视觉问答
,特别是涉及一种视觉问答方法、装置、电子设备、介质及程序产品。

技术介绍

[0002]视觉问答是指针对一张图片和一个图片相关的自然语言问题,生成自然语言形式的答案,其中融合了自然语言处理、计算机视觉、知识表示学习等多学科知识。
[0003]相关技术中的视觉问答方法,对于简单和困难的问题进行相同步数的推理,存在一定的不合理性;且推理过程缺乏可解释性,对于复杂问题难以定位发生错误的原因。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种视觉问答方法、装置、电子设备、介质及程序产品,以便克服上述问题或者至少部分地解决上述问题。
[0005]本专利技术实施例的第一方面,提供了一种视觉问答方法,所述方法包括:
[0006]获得图像和原始问题;
[0007]根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,直到所述原始问题中的各个词语所关联的子问题都已解答为止,停止子问题生成,其中,每一轮子问题本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法,其特征在于,所述方法包括:获得图像和原始问题;根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,直到所述原始问题中的各个词语所关联的子问题都已解答为止,停止子问题生成,其中,每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的;根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案。2.根据权利要求1所述的方法,其特征在于,根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案,包括:将所述图像的原始特征,确定为所述图像在第一轮的特征;以每一轮为当前轮,根据上一轮子问题的特征,更新所述图像在当前轮的特征;根据所述原始问题的特征,更新所述图像在最后一轮的特征,得到所述图像的最终特征;根据所述原始问题的特征和所述图像的最终特征,生成所述原始问题的答案。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据第一轮子问题的特征和所述图像的原始特征,生成所述第一轮子问题的答案;以每一轮为当前轮,根据当前轮子问题的特征,以及所述图像在当前轮的特征和在上一轮的特征,生成所述当前轮子问题的答案。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获得样本图像和样本原始问题;生成所述样本原始问题的多个子样本问题,并根据所述样本图像,生成所述样本原始问题以及所述多个子样本问题各自的正确答案,以构建训练样本;将所述样本图像和所述样本原始问题输入预设模型,得到所述预设模型中根据所述样本原始问题中的各个词语逐轮生成的多个预测子问题,直到所述样本原始问题中的各个词语所关联的预测子问题的预测答案都已生成为止,停止预测子问题生成,其中,每一轮预测子问题是根据所述样本图像、所述样本原始问题、全部历史预测子问题和全部历史预测子问题的预测答案生成的;根据所述样本原始问题以及所述多个子预测问题各自的正确答案,对所述预设模型进行训练,得到视觉问答模型;根据原始问题中的各个词语,逐轮生成所述原始问题的多个子问题,根据所述图像、所述原始问题以及所述多个子问题,生成所述原始问题的答案,包括:将所述图像和所述原始问题输入所述视觉问答模型,以使所述视觉问答模...

【专利技术属性】
技术研发人员:王若楠王小捷江会星武威
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1