System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图神经网络与大语言模型融合的知识图谱挖掘方法技术_技高网

基于图神经网络与大语言模型融合的知识图谱挖掘方法技术

技术编号:40066206 阅读:5 留言:0更新日期:2024-01-16 23:27
本发明专利技术公开了一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,首先基于大语言模型的实体生成关系文本;然后对大语言模型进行微调;接下来实体关系特征编码;之后进行图神经网络训练;最后利用学习后的图神经网络实现知识图谱的挖掘下游任务。本发明专利技术利用大语言模型的生成能力对知识信息进行生成,对生成的信息重新微调大语言模型,既可以减少文本预料的成本,也减少了训练时的硬件成本。

【技术实现步骤摘要】

本专利技术属于深度学习,具体涉及一种知识图谱挖掘方法。


技术介绍

1、在现有技术中,知识图谱挖掘流程为:

2、1、学习实体(和关系)的嵌入;

3、2、使用学习到的嵌入执行下游任务,例如实体分类和链接预测。

4、传统的知识图谱挖掘技术有:

5、1、语义匹配模型,语义匹配模型通过利用基于相似性的能量函数来匹配实体和关系隐含在嵌入空间中的语义表征。

6、2、平移距离模型,可以理解为经过嵌入后的实体头到实体尾的平移,通过基于距离的能量函数来描述知识图谱。该模型提高了模型容量,同时保留了效率。

7、3、基于元路径的模型,基于元路径的模型捕捉局部和全局结构属性以及实体和关系类型,以便知识图谱的推理。

8、4、卷积神经网络模型。

9、基于图神经网络的知识图谱推理技术有:

10、1、基于图卷积神经网络的模型架构,具体论文有:modeling relation data withgraph convolutional networks(schlichtkrull et al,2018);transgcn:couplingtransformation assumptions with graph convolutional networks for linkprediction(cai et al,2019);end-to-end structure-aware convolutional networksfor knowledge base completion(shang et al,2019).

11、2、基于图注意力网络的模型架构,具体论文有:learning attention-basedembeddings for relation prediction in knowledge graphs(nathani et al,2019);relational graph network with hierarchical attention(zhang et al,2019);

12、大语言模型技术背景:

13、随着预训练模型在自然语言领域的快速发展,研究者发现随着模型参数的不断增加,模型对于下游任务的应用效果也会变得优秀。就是说模型参数的增加使得模型对于语言的语义信息,句法信息,语法信息等学习的更加透彻,所以模型也就更加智能。然而大语言模型的训练预料来自于互联网上可用信息,因此模型学习的内容虽然广泛,但是针对特定领域的特定知识则表现的不是很理想。为了使得大语言模型在特定领域的成功落地,常常使用特定领域的文本数据对大语言模型进行微调。然而一些领域的数据并不存有大量的文本数据,对于大语言模型的微调也会带来一定的问题。由于大语言模型对于海量知识的学习,对于知识的泛化已经有很好的效果,利用大语言模型结合知识图谱可以提升知识图谱挖掘的效果。

14、在学术界有算法在大语言模型(如large-scale knowledge enhanced pre-training for language understand and generation(yu et al,2021))预训练阶段将知识图谱数据同时进行编码训练,然而训练大语言模型的成本极为高昂,且每个知识图谱的学习都从初始阶段进行,这种方式对于应用的落地很不现实,因此利用知识图谱对大语言模型进行微调是可行方案。

15、工程背景:

16、生产中各领域根据业务需求开发了相应的知识图谱,对于构建完成的知识图谱的应用多采用基于专家经验的推理方式实现知识图谱的推理,抑或是使用传统的知识推理方法,比如语义匹配模型,平移距离模型,基于元路径的模型,卷积神经网络模型,也有更为先进的图神经网络模型的应用。从模型的实现方法来看,对于实体与关系的嵌入编码均使用的是随即编码,通过对图的学习,方向传播修改实体及关系的嵌入编码,这种方式学习到了知识图谱的图结构信息,然而知识图谱中的实体与关系是存在语义信息的,以上的方式则无法学习到。大语言模型是将大量的文本数据进行预训练,使大模型学习到更多自然语言的语义信息,在实体与关系的嵌入编码阶段使用大语言模型进行融合,将语义信息融入到图神经网络,从而提升图神经网络针对知识图谱推理的准确率。

17、图神经网络的缺点:

18、图神经网络对于图结构的学习具有绝对的优势,但是图中的实体节点在生产中具有特定的语义信息,图神经网络则无学习到其存在的语义信息。

19、大语言模型的缺点:

20、大语言模型在语义的学习方面已经存在很好的适应性,然而在特定的行业应用场景下并没有较好的结果,出现这个问题的原因主要在于训练大语言模型的数据不能完全覆盖到各行各业。

21、大语言模型预训练阶段成本高昂,改变大语言模型的网络结构重新训练与训练模型则会大大提高成本。

22、现有知识图谱挖掘的方法常用的技术手段有:语义匹配模型,平移距离模型,基于元路径的模型,卷积神经网络模型等传统挖掘方法,也有图卷积神经网络,图注意力网络等图神经网络,这些挖掘技术的主要思想是通过算法模拟出知识图谱的结构,然后根据图结构进行挖掘。然而知识图谱中的很多实体和关系存在着自有的语义信息,如何将语义信息加入到传统的图挖掘技术中是本专利技术的核心。大语言模型已经学习到了大量文本的语义信息,但是针对特定领域的应用描述并不是特别准确,因此如何让大语言模型学习到特定领域知识图谱的内容为本专利技术的另一个核心。学术界对于知识图谱与大语言模型的融合通常为重新设计网络,网络的输入层包含了知识图谱的信息,这样的做法可以保证大语言模型对于知识图谱的学习较为充分,但是大语言模型的训练成本高昂,并非所有机构都可以实现。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,首先基于大语言模型的实体生成关系文本;然后对大语言模型进行微调;接下来实体关系特征编码;之后进行图神经网络训练;最后利用学习后的图神经网络实现知识图谱的挖掘下游任务。本专利技术利用大语言模型的生成能力对知识信息进行生成,对生成的信息重新微调大语言模型,既可以减少文本预料的成本,也减少了训练时的硬件成本。

2、本专利技术解决其技术问题所采用的技术方案包括如下步骤:

3、步骤101:基于大语言模型的实体,关系文本生成;

4、将知识图谱中的实体1、实体2、关系组成三元组,并将三元组数据通过大语言模型生成关于实体1、实体2、关系的实体关系数据;

5、步骤102:大语言模型微调;

6、利用步骤101生成出的实体关系数据对大语言模型进行优化微调;本步骤的大语言模型可以选择与步骤101相同的大语言模型,也可也选择不同的大语言模型;

7、步骤103:实体关系特征编码;

8、利用步骤102微调后的大语言模型对实体及关系进行特征编码;<本文档来自技高网...

【技术保护点】

1.一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,所述大语言模型为GPT3或GLM或LLaMa。

3.根据权利要求1所述的一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,所述图神经网络为GCN或GAT。

4.根据权利要求1所述的一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,所述优化微调的方法为lora或P-Tuning。

5.根据权利要求1所述的一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,所述挖掘下游任务实体分类或链接预测。

【技术特征摘要】

1.一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征在于,所述大语言模型为gpt3或glm或llama。

3.根据权利要求1所述的一种基于图神经网络与大语言模型融合的知识图谱挖掘方法,其特征...

【专利技术属性】
技术研发人员:陈霄鹏孙立白雨买睿桀
申请(专利权)人:电信科学技术第十研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1