【技术实现步骤摘要】
本专利技术涉及一种视觉问答方法,具体涉及一种基于实体对齐和跨模态推理的视觉文本问答(vtqa)方法。
技术介绍
1、在人工智能研究中,一个重要的目标是赋予系统理解真实世界的能力,类似于人类的理解。问答(qa)是一个有效的任务,用于评估人工智能系统的认知能力。为了回答问题,人们需要从多种模态(如文本、图像和结构化数据,如知识库、图形和表格)中提取信息。此外,人们需要对齐信息并在不同模态之间进行多步骤推理。
2、视觉问答(vqa)旨在基于图像回答自然语言问题,这要求模型在视觉-语言联合空间中理解并推理。在过去的几年中,已经提出了几个数据集,如daquar、fm-iqa、vqa、cocoqa、visual7w、visual genome、gqa、okvqa、a-okvqa、vizwizqa等。这些数据集中的自然语言问题可以被视为指导模型完成视觉任务(如对象检测、场景识别、计数等)的指令。尽管vqa作为多模态qa任务已被广泛研究,但是vqa模型在回答问题时仅从图像中提取信息,并且主要关注场景识别、计数、颜色和其他视觉检测任务,这些任
...【技术保护点】
1.一种基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述方法包括如下步骤:
2.根据权利要求1所述的基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述KECMR模块由一个关键实体提取KEE层和多个跨模态推理CMR层组成,KEE层和CMR层由注意力单元和前馈单元组成;
3.根据权利要求2所述的基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述注意力压缩层由以下公式描述:
【技术特征摘要】
1.一种基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述方法包括如下步骤:
2.根据权利要求1所述的基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述kecmr模块由一个关键实体提...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。