视觉问答及其模型训练方法、装置、电子设备、存储介质制造方法及图纸

技术编号:41101956 阅读:23 留言:0更新日期:2024-04-25 13:58
本发明专利技术公开了一种视觉问答及其模型训练方法、装置、电子设备、存储介质,应用于人工智能领域。其中,方法包括获取视觉问答训练样本数据集;将问题‑图像对样本输入至视觉问答模型,图文编码器对问题‑图像对样本进行图文编码处理,交互解码器从接收到的图文编码特征中提取交互对象的语义特征,推理解码器融合接收到的图文编码特征和交互对象特征,并基于融合图文编码特征对应的正确答案‑正确事件知识标签、与从知识库检索的答案、事件知识间的损失不断地迭代更新,直至满足预设模型训练结束条件。本发明专利技术可以解决相关技术无法满足用户高精度问答需求和答案可解释需求的问题,提升了基于场景交互任务中的视觉问答精度,让答案更具有可解释性。

【技术实现步骤摘要】

本专利技术涉及人工智能,特别是涉及一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质。


技术介绍

1、视觉问答为一种涉及计算机视觉和自然语言处理的学习任务,其是指通过对视频及图像的内容和用户提出的问题进行深度理解和推理后,给出相应的回答。其中,基于场景交互任务的视觉问答能够对人类和场景进行交互的行为进行理解,被广泛应用。

2、基于场景交互任务中的视觉问答要求执行相应视觉问答任务的视觉问题模型,具有很强的组合理解能力,能够在知识图谱、问题和图像之间进行推理,而相关技术中的视觉问答模型在问答精度和知识推理的精度上都相对较低,并无法满足用户的高精度问答需求和答案可解释需求。

3、鉴于此,提升基于场景交互任务中的视觉问答精度,让答案更具有可解释性,是所属领域技术人员需要解决的技术问题。


技术实现思路

1、本专利技术提供了一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质,能够有效提升基于场景交互任务中的视觉问答精度,让答案更具有可解释性。

2、为解决上述技术问题,本本文档来自技高网...

【技术保护点】

1.一种视觉问答模型训练方法,其特征在于,包括:

2.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:

3.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括

4....

【技术特征摘要】

1.一种视觉问答模型训练方法,其特征在于,包括:

2.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:

3.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

4.根据权利要求3所述的视觉问答模型训练方法,其特征在于,所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性,包括:

5.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

6.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层;

7.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

8.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

9.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:

10.根据权利要求9所述的视觉问答模型训练方法,其特征在于,所述确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性,包括:

11.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:

12.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层;

13.根据权利要求1所述的视觉问答模...

【专利技术属性】
技术研发人员:徐聪赵雅倩范宝余刘璐贾麒金良闫瑞栋
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1