System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态信息增强与交互的外部知识视觉问答方法技术_技高网
当前位置: 首页 > 专利查询>海南大学专利>正文

基于多模态信息增强与交互的外部知识视觉问答方法技术

技术编号:42865007 阅读:26 留言:0更新日期:2024-09-27 17:27
本发明专利技术涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括:提取原始图像中带有语义信息的视觉特征;处理原始问题得到问题文本嵌入,通过LXMERT模型提取各个特征;基于张量Tucker融合方法计算相似度矩阵,得到自回归提示;基于单模型文本问答模块得到单模态提示;将自回归提示与单模态提示与原始问题建立连接,再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示,提高问题文本信息丰富度;采用基于张量Tucker融合方法进行特征交互,捕获目标与问题之间相关性;将自回归提示与单模态提示与原始问题建立连接,利用递归的答案生成范式加强两个阶段的一致性,使得生成的最终答案准确率较高。

【技术实现步骤摘要】

本专利技术涉及计算机视觉问答,特别是涉及一种基于多模态信息增强与交互的外部知识视觉问答方法


技术介绍

1、随着计算机视觉和自然语言处理领域的蓬勃发展,视觉问答(visual_question_answering,vqa)作为融合多模态信息的前沿任务受到了学术界和工业界的广泛关注。vqa不仅要求计算机系统理解图像内容,还要求计算机系统理解自然语言问题并提供准确的响应,从而涉及跨模态信息理解和推理的复杂任务。在传统的视觉问答(vqa)任务中,模型主要依赖图像和问题之间的局部信息。然而,随着问题的复杂性和多样性的增加,仅依赖图像和问题的局部信息往往无法满足任务需求。为了提高视觉问答系统的性能和鲁棒性,越来越多的研究探索如何结合外部知识来辅助问题理解和答案推理,即基于知识的视觉问答(knowledge-basedvisual questionanswering,kb-vqa),旨在利用文本语料库、知识图谱和网络资源等丰富的外部知识资源来丰富问题和图像的语义表示,从而提高系统理解和回答复杂问题的能力。

2、目前,主要是需要将基于知识的视觉问答的注意力转向从结构化来源或非结构化/半结构化存储库中捕获相关知识。虽然这些存储库通过细致的手动注释提供高质量的知识,但它们提供的信息往往局限于以自然语言明确表达的事实或使用一阶谓词的简单三元组。因此,这些知识库在表示高阶谓词和多模态知识方面遇到了挑战,这些知识对人类推理解决复杂问题至关重要。在vqa场景中表示和积累复杂的多模态知识,同时保留传统知识图谱的可解释性优势,仍然是一个重要但未被探索的问题。新兴的多模态知识图谱的最新进展旨在将视觉内容与文本事实联系起来,创建丰富的知识图谱。常见的解决方案分为两类:将图像和文本解析为结构化表示,为事件/实体建立跨模态基础,或将现有知识图谱中的实体与相关图像对齐。然而,这些多模态知识图谱从根本上使用一阶谓词表示知识,难以对复杂的高阶关系建模。也有模型在一个多模态知识提取和积累的框架内引入了一个基于三元组的答案预测,由于积累了多模态知识,融合了从vqa样本中观察到的复杂关系,并基于获得的知识进行可解释推理。

3、然而,上述方法主要针对答案预测模块进行优化,忽略了输入的多模态数据对答案生成的影响。首先,视觉特征通常是目标外观和检测器提供的空间信息在图像中的嵌入;在训练过程中,不可能像使用原始图像数据那样扩充数据;大多数方法直接将这些特征输入多模态编码器进行交互处理。视觉特征缺乏多样性和复杂性,导致模型容易出现过拟合。其次,与vqa任务相比,kb-vqa中的问题更加复杂,可能与图像没有明确的对应关系,直接输入到模型中给语义理解带来了挑战。


技术实现思路

1、基于此,为了解决上述技术问题,提供一种基于多模态信息增强与交互的外部知识视觉问答方法,通过视觉特征的增强,增加了视觉数据的多样性和复杂性,从而增加了信息的丰富度,缓解了过拟合;利用递归答案生成范式为问题提供自回归提示,并利用文本问答模块提供单模型提示,在两个提示符的辅助下,提高了模型对问题的理解能力;提出的基于三元组表示的答案生成模型利用增强的多模态特征进行准确的答案生成,显著提高了答案生成的准确率。

2、一种基于多模态信息增强与交互的外部知识视觉问答方法,所述方法包括:

3、将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,并将所述图像块、所述标签文本输入至多模态特征提取器中,得到与所述原始图像中各个目标对应的带有语义信息的视觉特征;

4、对原始问题进行分词以及特征化处理,得到问题文本嵌入,并将所述带有语义信息的视觉特征、所述问题文本嵌入输入到lxmert模型中,得到综合视觉特征、文本特征、多模态特征;

5、基于张量tucker融合方法对所述综合视觉特征、文本特征进行处理,计算得到相似度矩阵,并基于所述相似度矩阵、所述多模态特征计算得到视觉问答的预测答案,作为自回归提示;

6、基于vinvl模型提取所述原始图像中的图像描述,将所述图像描述、所述原始问题输入至单模型文本问答模块得到答案预测作为单模态提示;

7、将所述自回归提示与所述单模态提示与所述原始问题建立连接,作为新的问题并再次进行分词以及特征化处理,根据新得到的相似度矩阵计算得到最终答案。

8、在其中一个实施例中,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:

9、利用faster-rcnn提取所述原始图像中的各个目标,得到各个所述目标对应的边界框以及标签文本,基于所述边界框确定图像块;

10、建立所述图像块与所述标签文本之间的对应关系。

11、在其中一个实施例中,所述方法还包括:

12、利用视觉特征下降以目标概率掩码所述原始图像中不同目标对应的所述带有语义信息的视觉特征;

13、利用视觉特征交换以所述目标概率将所述带有语义信息的视觉特征替换为从其他特征提取器中提取的特征。

14、在其中一个实施例中,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:

15、将wordpiece应用于所述原始问题进行分词处理,得到问题序列;

16、将所述问题序列输入到预训练的lxmert模型中,得到问题文本嵌入。

17、在其中一个实施例中,所述基于张量tucker融合方法对所述综合视觉特征、文本特征进行处理,计算得到相似度矩阵,包括:

18、基于张量tucker融合方法执行所述综合视觉特征、文本特征之间的张量乘法,沿着第四维求和得到目标与所述问题序列中单词token之间的相似度矩阵;

19、所述方法还包括:

20、在所述相似度矩阵上采用逐行最大池化来评估目标集合中每个目标与问题的相关性,得到评估结果;

21、根据所述评估结果,选择所述目标集合中与问题关联性最大的目标作为问题的视觉表示,并基于所述视觉表示,确定头部实体。

22、在其中一个实施例中,所述方法还包括:

23、利用lxmert模型通过从所述问题序列中提取垮模态表示;

24、将所述垮模态表示输入至前馈网络层以推导关系的嵌入,作为关系实体。

25、在其中一个实施例中,所述方法还包括:

26、对所述头部实体、所述关系实体进行处理,计算得到尾部实体嵌入,作为视觉问答的预测答案。

27、在其中一个实施例中,将所述图像描述、所述原始问题输入至单模型文本问答模块得到答案预测作为单模态提示,包括:

28、将所述图像描述、所述原始问题输入至单模型文本问答模块,通过三元组表示答案预测模型,得到参考答案以及与所述参考答案对应的预测概率;

29、将所述参考答案以及所述预测概率作为单模态提示。

30、在其中一个实施例中,将所述自回归提示与所述单模态提示与所述原始问题建立连接,作本文档来自技高网...

【技术保护点】

1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:

3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:

5.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述基于张量Tucker融合方法对所述综合视觉特征、文本特征进行处理,计算得到相似度矩阵,包括:

6.根据权利要求5所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,将所述图像描述、所述原始问题输入至单模型文本问答模块得到答案预测作为单模态提示,包括:

9.根据权利要求8所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,将所述自回归提示与所述单模态提示与所述原始问题建立连接,作为新的问题并再次进行分词以及特征化处理,根据新得到的相似度矩阵计算得到最终答案,包括:

...

【技术特征摘要】

1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:

3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:

5.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述基于张量tucker融合方法对所述综合视觉特征、文...

【专利技术属性】
技术研发人员:羊洁明高源杨静
申请(专利权)人:海南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1