System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 视觉问答及其模型训练方法、装置、电子设备、存储介质制造方法及图纸_技高网

视觉问答及其模型训练方法、装置、电子设备、存储介质制造方法及图纸

技术编号:41101956 阅读:2 留言:0更新日期:2024-04-25 13:58
本发明专利技术公开了一种视觉问答及其模型训练方法、装置、电子设备、存储介质,应用于人工智能领域。其中,方法包括获取视觉问答训练样本数据集;将问题‑图像对样本输入至视觉问答模型,图文编码器对问题‑图像对样本进行图文编码处理,交互解码器从接收到的图文编码特征中提取交互对象的语义特征,推理解码器融合接收到的图文编码特征和交互对象特征,并基于融合图文编码特征对应的正确答案‑正确事件知识标签、与从知识库检索的答案、事件知识间的损失不断地迭代更新,直至满足预设模型训练结束条件。本发明专利技术可以解决相关技术无法满足用户高精度问答需求和答案可解释需求的问题,提升了基于场景交互任务中的视觉问答精度,让答案更具有可解释性。

【技术实现步骤摘要】

本专利技术涉及人工智能,特别是涉及一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质。


技术介绍

1、视觉问答为一种涉及计算机视觉和自然语言处理的学习任务,其是指通过对视频及图像的内容和用户提出的问题进行深度理解和推理后,给出相应的回答。其中,基于场景交互任务的视觉问答能够对人类和场景进行交互的行为进行理解,被广泛应用。

2、基于场景交互任务中的视觉问答要求执行相应视觉问答任务的视觉问题模型,具有很强的组合理解能力,能够在知识图谱、问题和图像之间进行推理,而相关技术中的视觉问答模型在问答精度和知识推理的精度上都相对较低,并无法满足用户的高精度问答需求和答案可解释需求。

3、鉴于此,提升基于场景交互任务中的视觉问答精度,让答案更具有可解释性,是所属领域技术人员需要解决的技术问题。


技术实现思路

1、本专利技术提供了一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质,能够有效提升基于场景交互任务中的视觉问答精度,让答案更具有可解释性。

2、为解决上述技术问题,本专利技术提供以下技术方案:

3、本专利技术第一方面提供了一种视觉问答模型训练方法,包括:

4、获取视觉问答训练样本数据集;所述视觉问答训练样本数据集包括知识库、多组具有正确答案-正确事件知识标签的问题-图像对样本;所述问题-图像对样本包括问题样本及其对应的图像样本,所述问题样本包括目标物的行为,所述图像样本至少包括目标物与场景进行交互的行为所指向的交互对象;

5、将问题-图像对样本输入至预先构建的视觉问答模型;所述视觉问答模型包括图文编码器、交互解码器和推理解码器;

6、所述图文编码器对问题-图像对样本进行图文编码处理,并将图文编码特征分别输入至所述交互解码器和所述推理解码器;所述交互解码器从接收到的图文编码特征中提取所述交互对象的语义特征,并将提取到的交互对象特征发送至所述推理解码器;所述推理解码器将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,直至满足预设模型训练结束条件。

7、在第一种示例性的实施方式中,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:

8、所述答案推理分支接收所述图文编码器的答案输出标识符对应位置输出的第一类图文编码特征,并基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新;

9、所述知识推理分支接收所述图文编码器的事件输出标识符对应位置输出的第二类图文编码特征,将第二类图文编码特征与所述交互对象特征进行融合,并基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新;

10、其中,所述答案输出标识符用于标识所述图文编码器输入至所述答案推理分支的图文编码特征,所述事件输出标识符用于标识所述图文编码器输入至所述知识推理分支的图文编码特征。

11、在第二种示例性的实施方式中,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

12、预先将所述知识库的各答案进行向量化表示,得到包含多个答案表征的答案空间;

13、对各第一类图文编码特征,基于当前第一类图文编码特征对应的问题-图像样本对的正确答案-正确事件知识标签,得到所述当前第一类图文编码特征对应的正确答案表征,并确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性;

14、确定所述当前第一类图文编码特征与所述答案空间的答案表征之间的参考相似性;

15、根据所述标准相似性及各参考相似性,确定所述当前第一类图文编码特征与所述答案空间的各答案表征的损失信息。

16、在第三种示例性的实施方式中,所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性,包括:

17、调用相似性计算关系式,计算当前第一类图文编码特征与其对应的正确答案表征之间的标准相似度;所述相似性计算关系式为:

18、;

19、其中,为标准相似度, t表示转置, p n为索引号为 n的问题-图像对样本, a表示答案,表示 p n对应的第一类图文编码特征,表示正确答案表征,表示调节参数。

20、在第四种示例性的实施方式中,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

21、调用答案推理损失函数计算关系式,计算第一类图文编码特征与从所述知识库中检索到的各答案之间的答案推理损失;所述答案推理损失函数计算关系式为:

22、;

23、式中, l a为答案推理损失,n为问题-图像对样本总数, t表示转置, p n为索引号为 n的问题-图像对样本, a表示答案,表示对应的第一类图文编码特征,表示正确答案表征,表示调节参数,表示答案空间a中的答案,表示答案空间a中的答案表征。

24、在第五种示例性的实施方式中,所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层;

25、其中,所述语义空间层,接收所述图文编码器的答案输出标识符对应位置输出的第一类图文编码特征,并计算各第一类图文编码特征与各答案表征之间的相似性;

26、所述答案特征提取层,将所述答案特征表示层的各答案表征映射至所述语义空间层;

27、所述答案特征表示层,将所述知识库的各答案进行向量化表示,生成相应的答案表征,并将各答案表征发送至所述答案特征提取层。

28、在第六种示例性的实施方式中,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

29、计算所述交互对象特征分别与第二类图文编码特征的距离度量信息,得到初始融合图文编码特征;

30、将初始融合图文编码特征与对应的第二类图文编码特征进行特征和相加,得到融合图文编码特征。

31、在第七种示例性的实施方式中,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

本文档来自技高网...

【技术保护点】

1.一种视觉问答模型训练方法,其特征在于,包括:

2.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:

3.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

4.根据权利要求3所述的视觉问答模型训练方法,其特征在于,所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性,包括:

5.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

6.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层;

7.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

8.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

9.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:

10.根据权利要求9所述的视觉问答模型训练方法,其特征在于,所述确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性,包括:

11.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:

12.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层;

13.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述对问题-图像对样本进行图文编码处理,包括:

14.根据权利要求13所述的视觉问答模型训练方法,其特征在于,所述将所述文本编码特征和所述图像编码特征进行特征融合,并将融合生成的图文编码特征输出至所述交互解码器和所述推理解码器,包括:

15.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述图文编码器包括文本输入端、图像输入端、答案输出标识符输入端、事件输出标识符输入端、图像编码层、文本编码层、特征拼接层、第一交叉注意力层和第二交叉注意力层;

16.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述交互解码器包括交互对象特征提取模型;

17.根据权利要求1至16任意一项所述的视觉问答模型训练方法,其特征在于,所述视觉问答模型的总损失函数关系式为:

18.一种视觉问答方法,其特征在于,包括:

19.根据权利要求18所述的视觉问答方法,其特征在于,所述根据所述视觉问答模型的输出,得到所述待回答问题的候选答案、目标交互对象特征和支撑知识,包括:

20.根据权利要求19所述的视觉问答方法,其特征在于,所述基于各候选答案和各支撑知识之间的相似性,从各候选答案中选择出正确答案,包括:

21.根据权利要求20所述的视觉问答方法,其特征在于,各支撑知识构成支撑知识集,所述计算当前候选答案分别与各支撑知识之间的相似度,包括:

22.根据权利要求20所述的视觉问答方法,其特征在于,所述基于各相似度与预设相似阈值之间的数值关系确定所述当前候选答案的分数,包括:

23.一种视觉问答模型训练装置,其特征在于,包括:

24.一种视觉问答装置,其特征在于,包括:

25.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器存储的计算机程序时实现如权利要求1至17任一项所述的视觉问答模型训练方法和/或如权利要求18至22任一项所述的视觉问答方法的步骤。

26.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的视觉问答模型训练方法和/或如权利要求18至22任一项所述的视觉问答方法的步骤。

...

【技术特征摘要】

1.一种视觉问答模型训练方法,其特征在于,包括:

2.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:

3.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

4.根据权利要求3所述的视觉问答模型训练方法,其特征在于,所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性,包括:

5.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:

6.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层;

7.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

8.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:

9.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:

10.根据权利要求9所述的视觉问答模型训练方法,其特征在于,所述确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性,包括:

11.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:

12.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层;

13.根据权利要求1所述的视觉问答模...

【专利技术属性】
技术研发人员:徐聪赵雅倩范宝余刘璐贾麒金良闫瑞栋
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1