一种基于跨模态预训练模型的多模态知识提取与积累方法及装置制造方法及图纸

技术编号：41286700 阅读：5 留言：0更新日期：2024-05-11 09:35

本发明专利技术涉及一种基于跨模态预训练模型的多模态知识提取与积累方法及装置。该方法包括：从给定的“问题‑图像”对中提取多模态知识三元组；利用三种损失函数学习多模态知识三元组的表示；利用学习的多模态知识三元组的表示，采用预训练‑微调的策略进行多模态知识的逐步积累，形成多模态知识库；对于给定的问题和图像，利用多模态知识库通过知识检索进行答案预测。本发明专利技术用一种新的知识表示学习的框架，可以独立于已有的知识库，通过对VQA样本的观察积累具有复杂关系的多模态知识，并基于积累的知识进行可解释的推理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息，具体涉及一种基于跨模态预训练模型的多模态知识提取与积累方法及装置。

技术介绍

1、视觉问答(vqa)任务：是指通过给定一个图像和一段关于图像的自然语言，这个任务将提供一个精确的自然语言答案。这个任务可以映射到现实生活的场景中：比如说帮助视障人士，问题和答案都是开放性的。视觉问题有选择性的针对图像的不同区域，包括背景细节的底层文本。因此，在vqa上取得成功的系统比产生通用图像描述生成的系统需要对图像有更详细的理解和更复杂的推理。此外，vqa是非常容易评估的，因为许多开放式的答案只包含几个单词或者是一组封闭的答案，可以以多项选择题的形式给出。

2、基于知识的视觉问答(kb-vqa)需要人工智能不仅可以利用问题和图像中包含的内容，还可以把外部的知识关联起来回答问题。这需要模型在开放式的跨模态场景中具有像人类一样的理解能力。

3、现有技术中主要存在以下缺点：

4、1.最近的大部分视觉问答工作都是基于“知识检索-推理”的pipeline方法，专注于从结构化知识图(如conceptnet和dbpedia)或非结构化/半结构化知识(如wikipedia和visual genome)中捕获相关知识。这些信息通常局限于仅可以用自然语言或简单的一阶谓词三元组明确表达的事实，而很难表示高阶谓词形式的知识或包含视觉信息的多模态知识。例如之前的大多数工作无法很好处理需要图像中的多模态信息以及对物体的理解的信息的问题。如何在vqa场景中表示和积累复杂的多模态知识，同时保持传统知识图在可解释推理方面的优

5、2.目前的多模态知识图的进展则旨在将可视内容与文本事实关联起来，形成增强的知识图。典型的解决方案可以分为两类：将图像和文本解析为结构化的表示，并跨形式建立事件/实体，或者简单地将现有知识图中的实体与相关图像对齐。然而，这样的多模态知识图本质上仍然是通过一阶谓词来表示知识，无法对图像与问题之间的高阶复杂关系进行建模。

技术实现思路

1、本专利技术针对上述问题，提出一种端到端的多模态知识抽取与积累模型—mukea(multimodal knowledge extraction and accumulation framework)。其可以独立于已有的知识库，通过对vqa样本的观察积累具有复杂关系的多模态知识，并基于积累的知识进行可解释的推理。

2、本专利技术采用的技术方案如下：

3、一种基于跨模态预训练模型的多模态知识提取与积累方法，包括以下步骤：

4、从给定的“问题-图像”对中提取多模态知识三元组；

5、利用三种损失函数学习多模态知识三元组的表示；

6、利用学习的多模态知识三元组的表示，采用预训练-微调的策略进行多模态知识的逐步积累，形成多模态知识库；

7、对于给定的问题和图像，利用多模态知识库通过知识检索进行答案预测。

8、进一步地，所述多模态知识三元组表示为(h,r,t)，其中h为头部实体，包含“问题-图像”对的视觉内容，t表示“问题-图像”对的答案部分，r为尾部实体，表示h和t之间的隐式关系。

9、进一步地，所述从给定的“问题-图像”对中提取多模态知识三元组，包括：

10、头部实体提取：首先计算关联矩阵a来评估图像中每个对象与问题中每个词元的相关性，a＝(w1q)t(w2v)，其中w1和w2是学习参数，q是问题的嵌入向量，v是输入图像i中物体o的视觉嵌入向量；然后在关联矩阵的指导下，在o中选择一个对象作为与问题最相关的视觉内容，其中通过计算a上的逐行最大池化来评估每个对象与问题的相关性；

11、关系抽取：将多模态知识中的关系定义为观察到的实例化对象与对应的事实答案之间的复杂隐式关系，利用lxmert模型通过层次转换器中的自注意机制捕获图像和问题之间的隐式相关性，从[cls]词元中提取跨模态表示，并将其输入前馈网络层以获得关系嵌入；

12、尾部实体提取：将标准答案作为尾实体，从头开始学习其表示，在推理阶段将kb-vqa任务定义为一个多模态知识图完成问题，并全局评估多模态知识库中的知识，以预测作为答案的最优尾部实体。

13、进一步地，所述三种损失函数包括transe损失ltranse、三元组一致性损失ltri、语义一致性损失lsem，最终的损失函数为l＝ltranse+ltri+lsem；所述三种损失函数互相补充，共同约束三元组的表示。

14、进一步地，所述采用预训练-微调的策略进行多模态知识的逐步积累，是使用域外和域内数据进行训练，从而积累广泛的多模态知识。

15、进一步地，所述对于给定的问题和图像，利用多模态知识库通过知识检索进行答案预测，是找到距离“头实体+关系”最近的尾实体。

16、一种基于跨模态预训练模型的多模态知识提取与积累装置，其包括：

17、多模态知识三元组提取模块，用于从给定的“问题-图像”对中提取多模态知识三元组；

18、三元组表示学习模块，用于利用三种损失函数学习多模态知识三元组的表示；

19、多模态知识积累模块，用于利用学习的多模态知识三元组的表示，采用预训练-微调的策略进行多模态知识的逐步积累，形成多模态知识库；

20、答案预测模块，用于对给定的问题和图像，利用多模态知识库通过知识检索进行答案预测。

21、本专利技术的有益效果如下：

22、现有的知识框架大多数是利用结构化知识图(如conceptnet和dbpedia)或非结构化/半结构化知识(如wikipedia和visual genome)这样简单的一阶谓词形式的三元组知识，无法去处理利用一些视觉信息复杂逻辑等隐含的不易表达的的知识。本专利用一种新的知识表示学习的框架，来积累与利用vqa数据中的复杂逻辑与多模态知识，进而解决该问题。

本文档来自技高网...

【技术保护点】

1.一种基于跨模态预训练模型的多模态知识提取与积累方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述多模态知识三元组表示为(h，r，t)，其中h为头部实体，包含“问题-图像”对的视觉内容，t表示“问题-图像”对的答案部分，r为尾部实体，表示h和t之间的隐式关系。

3.根据权利要求2所述的方法，其特征在于，所述从给定的“问题-图像”对中提取多模态知识三元组，包括：

4.根据权利要求2所述的方法，其特征在于，所述三种损失函数包括TransE损失LTransE、三元组一致性损失LTri、语义一致性损失Lsem，最终的损失函数为L＝LTransE+LTri+LSem；所述三种损失函数互相补充，共同约束三元组的表示。

5.根据权利要求4所述的方法，其特征在于，所述三种损失函数的计算方式如下：

6.根据权利要求1所述的方法，其特征在于，所述采用预训练-微调的策略进行多模态知识的逐步积累，是使用域外和域内数据进行训练，从而积累广泛的多模态知识。

7.根据权利要求1所述的方法，其特征在于，所述对

8.一种基于跨模态预训练模型的多模态知识提取与积累装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于跨模态预训练模型的多模态知识提取与积累方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述从给定的“问题-图像”对中提取多模态知识三元组，包括：

4.根据权利要求2所述的方法，其特征在于，所述三种损失函数包括transe损失ltranse、三元组一致性损失ltri、语义一致性损失lsem，最终的损失函数为l＝ltranse+ltri+lsem；所述三种损失函数互相补充，共同约束三元组的表示。

5.根据权利要求4所述的方法，其特征在于，所述三种损失函数的计算方式如下：

【专利技术属性】
技术研发人员：于静，熊刚，冯思远，丁阳，李镇，苟高鹏，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人