【技术实现步骤摘要】
本专利技术涉及人工智能,特别是涉及一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质。
技术介绍
1、视觉问答为一种涉及计算机视觉和自然语言处理的学习任务,其是指通过对视频及图像的内容和用户提出的问题进行深度理解和推理后,给出相应的回答。其中,基于场景交互任务的视觉问答能够对人类和场景进行交互的行为进行理解,被广泛应用。
2、基于场景交互任务中的视觉问答要求执行相应视觉问答任务的视觉问题模型,具有很强的组合理解能力,能够在知识图谱、问题和图像之间进行推理,而相关技术中的视觉问答模型在问答精度和知识推理的精度上都相对较低,并无法满足用户的高精度问答需求和答案可解释需求。
3、鉴于此,提升基于场景交互任务中的视觉问答精度,让答案更具有可解释性,是所属领域技术人员需要解决的技术问题。
技术实现思路
1、本专利技术提供了一种视觉问答及其模型训练方法、装置、电子设备、可读存储介质,能够有效提升基于场景交互任务中的视觉问答精度,让答案更具有可解释性。
2、为
...【技术保护点】
1.一种视觉问答模型训练方法,其特征在于,包括:
2.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:
3.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括
4....
【技术特征摘要】
1.一种视觉问答模型训练方法,其特征在于,包括:
2.根据权利要求1所述的视觉问答模型训练方法,其特征在于,所述推理解码器包括答案推理分支和知识推理分支;所述图文编码器的输入还包括答案输出标识符和事件输出标识符,所述将接收的图文编码特征和交互对象特征进行融合,并基于融合图文编码特征对应的正确答案-正确事件知识标签、与从所述知识库检索的答案、事件知识之间的损失信息进行迭代更新,包括:
3.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:
4.根据权利要求3所述的视觉问答模型训练方法,其特征在于,所述确定所述当前第一类图文编码特征与其对应的正确答案表征之间的标准相似性,包括:
5.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于第一类图文编码特征对应的正确答案标签与从所述知识库中检索到的各答案之间的损失信息进行迭代更新,包括:
6.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述答案推理分支包括语义空间层、答案特征提取层、答案特征表示层;
7.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:
8.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述将第二类图文编码特征与所述交互对象特征进行融合,包括:
9.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:
10.根据权利要求9所述的视觉问答模型训练方法,其特征在于,所述确定所述当前融合图文编码特征与其对应的正确事件知识表征之间的事件标准相似性,包括:
11.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述基于融合图文编码特征与所述知识库的各事件知识之间的损失信息进行迭代更新,包括:
12.根据权利要求2所述的视觉问答模型训练方法,其特征在于,所述知识推理分支包括特征融合层、事件空间层、事件特征提取层、事件知识特征表示层;
13.根据权利要求1所述的视觉问答模...
【专利技术属性】
技术研发人员:徐聪,赵雅倩,范宝余,刘璐,贾麒,金良,闫瑞栋,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。