System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型的多模态实体链接方法及系统技术方案_技高网

基于大模型的多模态实体链接方法及系统技术方案

技术编号:40053662 阅读:7 留言:0更新日期:2024-01-16 21:36
本发明专利技术提出一种基于大模型的多模态实体链接方法和系统,将大模型相关的技术应用于知识图谱领域的多模态实体链接问题。相比基于纯文本模态的实体链接,本发明专利技术能够考虑到视觉模态的辅助信息,从而能够在纯文本无法消除歧义的场合完成精确的实体链接;而与其他现有的多模态实体链接方法相比,本发明专利技术基于参数高效的训练方法,实现了基于大模型的实体链接,能够更好地利用到大模型强大的理解能力和生成能力,在训练代价较小的情况下取得了客观的性能提升。

【技术实现步骤摘要】

本专利技术涉及计算机科学与技术和知识图谱,并特别涉及一种基于大模型的多模态实体链接方法及系统


技术介绍

1、实体链接技术致力于将文本段落中出现的实体名称智能地关联至知识库中相应的确切实体。之前的实体链接主要关注在纯文本模态上,而随着近些年社交媒体中多模态信息的日益增多(例如朋友圈、抖音等),视觉模态的信息对于文本中提及实体的链接消歧能够起到重要的补充作用,这种通过对应的图片或视频来辅助文本模态实体链接的任务被称为多模态实体链接。传统的实体链接方法主要遵循“检索-重排”的两阶段策略,该方法存在错误累积以及推理效率低的问题。现有技术还提出了使用受限束搜索的方法来自回归地生成对应的实体,解决了上述存在的问题,成为其后实体链接的范式。为了引入多模态的信息,现有的一些方法通常会引入较为复杂的交互模块,或者使用对不同模态的交叉注意力机制,但是它们通常效率较低并且需要训练所有的模型参数,这使得模型很难扩展到更大的规模。

2、当前端到端实体链接方法通常分为两个阶段。在第一阶段,通过双流编码器对源文本(包含实体引用)和候选实体标签及描述进行编码,分别获取了实体引用及候选实体的上下文化表示。这个阶段并未进行实体间交互,而是通过相似度计算,选取得分最高的k个链接实体作为候选集。然后,将每个候选集合中的实体与实体引用的上下文进行结合,通过单流交叉编码器实现实体间的交互,以获取更精细化的语义表示。该阶段的得分用于实体的重排序,取得分最高的实体链接作为预测结果。然而,这种方法的一大限制在于其对候选实体描述的严苛需求,例如需要依赖于维基百科中的锚文本,这限制了其处理新增实体链接的能力。而且,在重排序阶段,每次相似度计算都需要重新获取实体引用所在文段的表示,这对计算效率产生了负面影响。

3、现有技术提出了一种基于生成实体画像的方法以帮助候选实体的检索过程,以缓解对锚文本依赖的问题。他们采用了bart自回归生成模型,基于给定的原文段和实体引用生成标题和描述。通过使用生成的实体画像在知识库中进行检索并重新排序,提高了实体链接的能力。他们甚至将应用范围扩展至wikidata(维基数据),该知识库规模是维基百科的7倍以上,而且可以处理描述不存在锚文本的问题。然而,这种方法的训练过程需要使用bart模型以拟合维基百科的有标注数据,对于稀疏数据丰富的wikidata,其训练模式难以有效学习。并且,该方法并未对第二阶段存在的重复计算问题进行优化。

4、现有技术尝试使用细粒度的实体类型标签和实体描述进行实体链接,经过实验发现,仅需使用简单的transformer编码器,结合来自实体类型和描述的信息进行多任务学习,就已经能在四个实体消歧和五个实体链接的基准数据集上超越其他现有方法。同时,他们的方法由于只需通过一次模型的前向传播获取实体引用表示,因此相比以前的方法具有显著的速度提升,达到其他高精度模型速度的60倍。然而,这个方法依赖于细粒度的类别标签,这在wikidata中的许多数据中是无法获得的。此外,将序列标注和实体链接这两种性质不同的任务合并在一个性能有限的模型中训练,可能会导致表示空间内的表示难以区分,进而削弱两种任务各自的性能,并增加错误累积。

5、大模型是指具有大量参数和计算资源的机器学习模型。大模型通常在训练过程中需要大量的数据和计算能力,并且具有数百万到数十亿个参数。openai在2023年推出的chatgpt和gpt-4在自然语言生成,特别是对话能力方面展示了卓越的性能。它们在流畅性、多样性和指令忠实性方面达到了前所未有的高度,开创了工业和学术界新的范式——大模型的崛起。人们开始采用上下文学习(in-context learning)、思维链(chain-of-thoughts)、指令微调(instruction tuning)和大模型蒸馏等技术以提升性能并创造新产品。然而,这些大模型普遍存在一个问题,即对事实知识的准确性不足。知识图谱中的知识恰是这些模型所需,但目前很少有研究将知识图谱与大模型结合,主要因为知识图谱本身是基于图结构的知识,与自然语言存在显著差异。此外,目前开源或公开商用的大多数大模型都只能够输入纯文本,即仅具有文本模态的能力,而从头训练一个视觉-语言联合模态的大模型需要大量可靠的平行数据以及消耗更多的计算资源。


技术实现思路

1、本专利技术的主要目的是解决多模态实体链接中存在的问题,包括如何引入视觉模态信息以及如何轻量化参数微调高效地迁移大模型能力到该任务上的问题。通过提出一种基于prefix tuning的来对齐视觉与文本模态的对齐方法,基于视觉文本模态相似度寻找相似样例来构建训练数据的方法以及基于lora参数高效地训练和推理大模型的多模态实体链接框架。本专利技术旨在在可接受的训练代价下,使用单一模型统一多种模态的信息,简化训练和测试流程,并且在多模态实体链接的性能上实现显著提升。

2、具体来说,本专利技术提出了一种基于大模型的多模态实体链接方法,其中包括:

3、步骤1、获取多个包括图像和其对应的文本描述的多模态样本,且该文本描述中的目标实体已标记真实名称;构建包括编码器、线性层和大模型的实体链接模型;

4、步骤2、选择一个该多模态样本作为训练样本,其余多模态样本作为数据库;通过该编码器提取该训练样本中图像的训练视觉特征,通过该线性层将该训练视觉特征转换至该文本描述所处的文本空间后与该训练样本的文本描述拼接,得到训练拼接特征;

5、步骤3、将该数据库中与该训练样本相似度最高的多模态样本作为该训练样本的示例,通过该编码器提取该示例中图像的实例视觉特征,通过该线性层将该实例视觉特征转换至该文本描述所处的文本空间后与该示例的文本描述拼接,得到示例拼接特征;

6、步骤4、将该示例的示例拼接特征、文本描述和目标实体问题与该训练样本的训练拼接特征、文本描述和目标实体问题进行拼接,并将拼接结果输入该大模型,根据大模型对该目标实体问题的答案和该真实名称构建损失函数,以分别对该实体链接模型中的该线性层和该大模型进行训练和微调;

7、步骤5、将待实体链接的多模态样本输入训练完成后的该实体链接模型,得到其目标实体问题的答案作为实体链接结果。

8、所述的基于大模型的多模态实体链接方法,其中该微调包括对该大模型中注意力模块的query和value投影矩阵增加一个旁路,该旁路作为query和value投影矩阵的偏置,微调时仅对该旁路的偏置大小进行调整。

9、所述的基于大模型的多模态实体链接方法,其中该大模型采用受限的束搜索策略,在知识库中对该目标实体问题的答案进行搜索,该束搜索策略包括:将该知识库中所有实体进行分词,对分词后形成的序列构造前缀树,由此确定给定前缀的下一个词元选择范围。

10、所述的基于大模型的多模态实体链接方法,其中该步骤3包括:综合视觉和文本两个模态选择该数据库中与该训练样本相似度最高的多模态样本。

11、本专利技术还提出了一种基于大模型的多模态实体链接系统,其中包括:

1本文档来自技高网...

【技术保护点】

1.一种基于大模型的多模态实体链接方法,其特征在于,包括:

2.如权利要求1所述的基于大模型的多模态实体链接方法,其特征在于,该微调包括对该大模型中注意力模块的query和value投影矩阵增加一个旁路,该旁路作为query和value投影矩阵的偏置,微调时仅对该旁路的偏置大小进行调整。

3.如权利要求1所述的基于大模型的多模态实体链接方法,其特征在于,该大模型采用受限的束搜索策略,在知识库中对该目标实体问题的答案进行搜索,该束搜索策略包括:将该知识库中所有实体进行分词,对分词后形成的序列构造前缀树,由此确定给定前缀的下一个词元选择范围。

4.如权利要求1所述的基于大模型的多模态实体链接方法,其特征在于,该步骤3包括:综合视觉和文本两个模态选择该数据库中与该训练样本相似度最高的多模态样本。

5.一种基于大模型的多模态实体链接系统,其特征在于,包括:

6.如权利要求5所述的基于大模型的多模态实体链接系统,其特征在于,该微调包括对该大模型中注意力模块的query和value投影矩阵增加一个旁路,该旁路作为query和value投影矩阵的偏置,微调时仅对该旁路的偏置大小进行调整。

7.如权利要求5所述的基于大模型的多模态实体链接系统,其特征在于,该大模型采用受限的束搜索策略,在知识库中对该目标实体问题的答案进行搜索,该束搜索策略包括:将该知识库中所有实体进行分词,对分词后形成的序列构造前缀树,由此确定给定前缀的下一个词元选择范围。

8.如权利要求5所述的基于大模型的多模态实体链接系统,其特征在于,该模块3包括:综合视觉和文本两个模态选择该数据库中与该训练样本相似度最高的多模态样本。

9.一种存储介质,用于存储执行如权利要求1到4所述任意一种多模态实体链接方法的程序。

10.一种客户端,用于权利要求5至8中任意一种多模态实体链接系统。

...

【技术特征摘要】

1.一种基于大模型的多模态实体链接方法,其特征在于,包括:

2.如权利要求1所述的基于大模型的多模态实体链接方法,其特征在于,该微调包括对该大模型中注意力模块的query和value投影矩阵增加一个旁路,该旁路作为query和value投影矩阵的偏置,微调时仅对该旁路的偏置大小进行调整。

3.如权利要求1所述的基于大模型的多模态实体链接方法,其特征在于,该大模型采用受限的束搜索策略,在知识库中对该目标实体问题的答案进行搜索,该束搜索策略包括:将该知识库中所有实体进行分词,对分词后形成的序列构造前缀树,由此确定给定前缀的下一个词元选择范围。

4.如权利要求1所述的基于大模型的多模态实体链接方法,其特征在于,该步骤3包括:综合视觉和文本两个模态选择该数据库中与该训练样本相似度最高的多模态样本。

5.一种基于大模型的多模态实体链接系统,其特征在于,包括:

6.如权利...

【专利技术属性】
技术研发人员:冯洋刘龙祥李秀星
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1