基于实体对齐和跨模态推理的视觉文本问答方法技术

技术编号:42375920 阅读:50 留言:0更新日期:2024-08-16 15:00
本发明专利技术公开了一种基于实体对齐和跨模态推理的视觉文本问答方法,所述方法包括如下步骤:步骤一、提出VTQA任务;步骤二、构建VTQA数据集;步骤三、构建KECMRN模型;步骤四、利用训练集和验证集训练KECMRN模型;步骤五、利用测试开发集对训练好的KECMRN模型进行筛选,将测试集输入筛选后的最佳KECMRN模型中,得到问题答案。该方法为了更全面的评估,引入了一个新数据集,包含来自10,124对图文对的23,781个问题,这个数据集的任务要求模型对同一实体的多模态表示进行对齐,以实现图像和文本之间的多跳推理,并最终使用自然语言回答问题。

【技术实现步骤摘要】

本专利技术涉及一种视觉问答方法,具体涉及一种基于实体对齐和跨模态推理的视觉文本问答(vtqa)方法。


技术介绍

1、在人工智能研究中,一个重要的目标是赋予系统理解真实世界的能力,类似于人类的理解。问答(qa)是一个有效的任务,用于评估人工智能系统的认知能力。为了回答问题,人们需要从多种模态(如文本、图像和结构化数据,如知识库、图形和表格)中提取信息。此外,人们需要对齐信息并在不同模态之间进行多步骤推理。

2、视觉问答(vqa)旨在基于图像回答自然语言问题,这要求模型在视觉-语言联合空间中理解并推理。在过去的几年中,已经提出了几个数据集,如daquar、fm-iqa、vqa、cocoqa、visual7w、visual genome、gqa、okvqa、a-okvqa、vizwizqa等。这些数据集中的自然语言问题可以被视为指导模型完成视觉任务(如对象检测、场景识别、计数等)的指令。尽管vqa作为多模态qa任务已被广泛研究,但是vqa模型在回答问题时仅从图像中提取信息,并且主要关注场景识别、计数、颜色和其他视觉检测任务,这些任务不需要太多逻辑推理本文档来自技高网...

【技术保护点】

1.一种基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述方法包括如下步骤:

2.根据权利要求1所述的基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述KECMR模块由一个关键实体提取KEE层和多个跨模态推理CMR层组成,KEE层和CMR层由注意力单元和前馈单元组成;

3.根据权利要求2所述的基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述注意力压缩层由以下公式描述:

【技术特征摘要】

1.一种基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述方法包括如下步骤:

2.根据权利要求1所述的基于实体对齐和跨模态推理的视觉文本问答方法,其特征在于所述kecmr模块由一个关键实体提...

【专利技术属性】
技术研发人员:邬向前卜巍陈康
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1