当前位置: 首页 > 专利查询>海南大学专利>正文

基于多模态信息增强与交互的外部知识视觉问答方法技术

技术编号:42865007 阅读:32 留言:0更新日期:2024-09-27 17:27
本发明专利技术涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括:提取原始图像中带有语义信息的视觉特征;处理原始问题得到问题文本嵌入,通过LXMERT模型提取各个特征;基于张量Tucker融合方法计算相似度矩阵,得到自回归提示;基于单模型文本问答模块得到单模态提示;将自回归提示与单模态提示与原始问题建立连接,再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示,提高问题文本信息丰富度;采用基于张量Tucker融合方法进行特征交互,捕获目标与问题之间相关性;将自回归提示与单模态提示与原始问题建立连接,利用递归的答案生成范式加强两个阶段的一致性,使得生成的最终答案准确率较高。

【技术实现步骤摘要】

本专利技术涉及计算机视觉问答,特别是涉及一种基于多模态信息增强与交互的外部知识视觉问答方法


技术介绍

1、随着计算机视觉和自然语言处理领域的蓬勃发展,视觉问答(visual_question_answering,vqa)作为融合多模态信息的前沿任务受到了学术界和工业界的广泛关注。vqa不仅要求计算机系统理解图像内容,还要求计算机系统理解自然语言问题并提供准确的响应,从而涉及跨模态信息理解和推理的复杂任务。在传统的视觉问答(vqa)任务中,模型主要依赖图像和问题之间的局部信息。然而,随着问题的复杂性和多样性的增加,仅依赖图像和问题的局部信息往往无法满足任务需求。为了提高视觉问答系统的性能和鲁棒性,越来越多的研究探索如何结合外部知识来辅助问题理解和答案推理,即基于知识的视觉问答(knowledge-basedvisual questionanswering,kb-vqa),旨在利用文本语料库、知识图谱和网络资源等丰富的外部知识资源来丰富问题和图像的语义表示,从而提高系统理解和回答复杂问题的能力。

2、目前,主要是需要将基于知识的视觉问答的注意力转本文档来自技高网...

【技术保护点】

1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:

3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:

5.根据权利要求1所述的基于多模态信...

【技术特征摘要】

1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:

3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:

5.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述基于张量tucker融合方法对所述综合视觉特征、文...

【专利技术属性】
技术研发人员:羊洁明高源杨静
申请(专利权)人:海南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1