System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机视觉问答,特别是涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。
技术介绍
1、随着计算机视觉和自然语言处理领域的蓬勃发展,视觉问答(visual_question_answering,vqa)作为融合多模态信息的前沿任务受到了学术界和工业界的广泛关注。vqa不仅要求计算机系统理解图像内容,还要求计算机系统理解自然语言问题并提供准确的响应,从而涉及跨模态信息理解和推理的复杂任务。在传统的视觉问答(vqa)任务中,模型主要依赖图像和问题之间的局部信息。然而,随着问题的复杂性和多样性的增加,仅依赖图像和问题的局部信息往往无法满足任务需求。为了提高视觉问答系统的性能和鲁棒性,越来越多的研究探索如何结合外部知识来辅助问题理解和答案推理,即基于知识的视觉问答(knowledge-basedvisual questionanswering,kb-vqa),旨在利用文本语料库、知识图谱和网络资源等丰富的外部知识资源来丰富问题和图像的语义表示,从而提高系统理解和回答复杂问题的能力。
2、目前,主要是需要将基于知识的视觉问答的注意力转向从结构化来源或非结构化/半结构化存储库中捕获相关知识。虽然这些存储库通过细致的手动注释提供高质量的知识,但它们提供的信息往往局限于以自然语言明确表达的事实或使用一阶谓词的简单三元组。因此,这些知识库在表示高阶谓词和多模态知识方面遇到了挑战,这些知识对人类推理解决复杂问题至关重要。在vqa场景中表示和积累复杂的多模态知识,同时保留传统知识图谱的可解释性优势,仍然是一个重要但未被
3、然而,上述方法主要针对答案预测模块进行优化,忽略了输入的多模态数据对答案生成的影响。首先,视觉特征通常是目标外观和检测器提供的空间信息在图像中的嵌入;在训练过程中,不可能像使用原始图像数据那样扩充数据;大多数方法直接将这些特征输入多模态编码器进行交互处理。视觉特征缺乏多样性和复杂性,导致模型容易出现过拟合。其次,与vqa任务相比,kb-vqa中的问题更加复杂,可能与图像没有明确的对应关系,直接输入到模型中给语义理解带来了挑战。
技术实现思路
1、基于此,为了解决上述技术问题,提供一种基于多模态信息增强与交互的外部知识视觉问答方法,通过视觉特征的增强,增加了视觉数据的多样性和复杂性,从而增加了信息的丰富度,缓解了过拟合;利用递归答案生成范式为问题提供自回归提示,并利用文本问答模块提供单模型提示,在两个提示符的辅助下,提高了模型对问题的理解能力;提出的基于三元组表示的答案生成模型利用增强的多模态特征进行准确的答案生成,显著提高了答案生成的准确率。
2、一种基于多模态信息增强与交互的外部知识视觉问答方法,所述方法包括:
3、将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,并将所述图像块、所述标签文本输入至多模态特征提取器中,得到与所述原始图像中各个目标对应的带有语义信息的视觉特征;
4、对原始问题进行分词以及特征化处理,得到问题文本嵌入,并将所述带有语义信息的视觉特征、所述问题文本嵌入输入到lxmert模型中,得到综合视觉特征、文本特征、多模态特征;
5、基于张量tucker融合方法对所述综合视觉特征、文本特征进行处理,计算得到相似度矩阵,并基于所述相似度矩阵、所述多模态特征计算得到视觉问答的预测答案,作为自回归提示;
6、基于vinvl模型提取所述原始图像中的图像描述,将所述图像描述、所述原始问题输入至单模型文本问答模块得到答案预测作为单模态提示;
7、将所述自回归提示与所述单模态提示与所述原始问题建立连接,作为新的问题并再次进行分词以及特征化处理,根据新得到的相似度矩阵计算得到最终答案。
8、在其中一个实施例中,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:
9、利用faster-rcnn提取所述原始图像中的各个目标,得到各个所述目标对应的边界框以及标签文本,基于所述边界框确定图像块;
10、建立所述图像块与所述标签文本之间的对应关系。
11、在其中一个实施例中,所述方法还包括:
12、利用视觉特征下降以目标概率掩码所述原始图像中不同目标对应的所述带有语义信息的视觉特征;
13、利用视觉特征交换以所述目标概率将所述带有语义信息的视觉特征替换为从其他特征提取器中提取的特征。
14、在其中一个实施例中,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:
15、将wordpiece应用于所述原始问题进行分词处理,得到问题序列;
16、将所述问题序列输入到预训练的lxmert模型中,得到问题文本嵌入。
17、在其中一个实施例中,所述基于张量tucker融合方法对所述综合视觉特征、文本特征进行处理,计算得到相似度矩阵,包括:
18、基于张量tucker融合方法执行所述综合视觉特征、文本特征之间的张量乘法,沿着第四维求和得到目标与所述问题序列中单词token之间的相似度矩阵;
19、所述方法还包括:
20、在所述相似度矩阵上采用逐行最大池化来评估目标集合中每个目标与问题的相关性,得到评估结果;
21、根据所述评估结果,选择所述目标集合中与问题关联性最大的目标作为问题的视觉表示,并基于所述视觉表示,确定头部实体。
22、在其中一个实施例中,所述方法还包括:
23、利用lxmert模型通过从所述问题序列中提取垮模态表示;
24、将所述垮模态表示输入至前馈网络层以推导关系的嵌入,作为关系实体。
25、在其中一个实施例中,所述方法还包括:
26、对所述头部实体、所述关系实体进行处理,计算得到尾部实体嵌入,作为视觉问答的预测答案。
27、在其中一个实施例中,将所述图像描述、所述原始问题输入至单模型文本问答模块得到答案预测作为单模态提示,包括:
28、将所述图像描述、所述原始问题输入至单模型文本问答模块,通过三元组表示答案预测模型,得到参考答案以及与所述参考答案对应的预测概率;
29、将所述参考答案以及所述预测概率作为单模态提示。
30、在其中一个实施例中,将所述自回归提示与所述单模态提示与所述原始问题建立连接,作本文档来自技高网...
【技术保护点】
1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:
3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:
5.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述基于张量Tucker融合方法对所述综合视觉特征、文本特征进行处理,计算得到相似度矩阵,包括:
6.根据权利要求5所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:
8.根据权利要
9.根据权利要求8所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,将所述自回归提示与所述单模态提示与所述原始问题建立连接,作为新的问题并再次进行分词以及特征化处理,根据新得到的相似度矩阵计算得到最终答案,包括:
...【技术特征摘要】
1.一种基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述将原始图像输入至目标检测器中,提取所述原始图像中的各个图像块以及对应的标签文本,包括:
3.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述对原始问题进行分词以及特征化处理,得到问题文本嵌入,包括:
5.根据权利要求1所述的基于多模态信息增强与交互的外部知识视觉问答方法,其特征在于,所述基于张量tucker融合方法对所述综合视觉特征、文...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。