System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型与知识图谱融合的小样本三元组抽取方法技术_技高网

一种基于大模型与知识图谱融合的小样本三元组抽取方法技术

技术编号:41202686 阅读:5 留言:0更新日期:2024-05-07 22:28
本发明专利技术公开了一种基于大模型与知识图谱融合的小样本三元组抽取方法,包括如下步骤:S1、生成潜在关系对应实体类别的Schema;S2、基于UIE模型将NER标签添加到数据集中;S3、基于KNN动态匹配支持集示例;S4、利用WikiData知识图谱,检索包含查询集中实体数据的三元组,作为外部知识图谱提示;S5、利用样例提示、外部知识图谱提示、思维链提示,构造GPT小样本三元组抽取提示,输入GPT,使其输出查询集中的三元组;S6、对GPT生成的三元组进行自我验证和外部验证。该方法通过自验证机制,使GPT能够自我检验关系、实体的准确性,并且依靠外部的规则验证机制,进一步提高准确率。

【技术实现步骤摘要】

本专利技术涉及信息抽取领域,具体来讲是一种基于大模型与知识图谱融合的小样本三元组抽取方法


技术介绍

1、信息抽取是指从自然语言文本中提取特定事实或信息的过程,可帮助我们自动分类、提取和重构海量内容。这些信息通常包括实体、关系和事件等。例如,可以从公司资料中提取公司名称、收购交易和股价变动等信息,从医疗记录中提取病人诊断、治疗方案和手术过程等信息。相较于其他自然语言任务,信息抽取任务更具有明确的目标,并能将提取到的信息以指定的结构展示出来,从而实现从自然语言中提取用户感兴趣的事实信息的目的。在知识图谱领域中,信息抽取得到广泛应用。

2、关系三元组抽取作为信息抽取中的一项重要任务,旨在从非结构化文本中抽取实体并对实体对的关系进行分类。

3、现有的方法通过使用标准的监督学习取得了巨大的成功,但是这种监督学习范式严重依赖于大规模的人工标注数据集。随着各领域知识的不断涌现,需要专业知识才能理解的新关系,很难进行大规模的人工标注。在标注资源不足的情况下,现有方法在抽取少量标注样本的关系三元组比较困难。因此,在只有少量注释三元组可用的情况下研究关系三元组抽取至关重要。

4、为了解决小样本关系三元组抽取,先前的工作遵循传统的实体-关系范式。它首先使用在已知关系的大规模数据上训练的全监督实体提取器提取所有实体,然后构建少样本关系分类器,以少样本方式对所有提取实体对的新关系进行分类。然而,小样本关系三元组抽取中存在实体不一致问题,这意味着新出现的关系实体可能包含与已知关系完全不同的实体类型,因为每个关系都会对首尾实体的类型施加一些约束。因此,在已知关系的实体上训练的实体提取器无法识别新关系的实体。克服这个问题的一个直观的方法是通过利用少量的标注样本以少样本的方式调整实体提取器。然而,这会引入冗余实体对问题,即难免会抽取出与非关联性无关的实体对,从而误导关系分类器。并且先前的小样本三元组抽取模型都需要大量时间进行元学习的训练,模型较为复杂,缺少泛化性。


技术实现思路

1、在综合考量上述问题后,本专利技术提出一种基于gpt和知识图谱融合的小样本三元组抽取方法gpt-fsrte,该方法首先利用uie对数据进行ner标签化,实现数据增强,增强数据实体语义信息,并对支持集数据添加关系提示,之后利用simces计算查询集数据和支持集数据的句子相似度,并以此为依据进行动态匹配支持集示例,通过挑选与查询数据最相似的k个支持集数据作为样例,将其作为gpt模型的抽取提示,同时在gpt提示中添加任务提示、输出格式、潜在关系信息,并依靠知识图谱wikidata为大模型提供准确的结构性知识,提高模型可靠性,在gpt生成过程中,使用了思维链进行三元组的生成,由于此时生成的三元组仍存在非指定关系,可能存在语言模型幻觉,因此最后通过自验证机制,使gpt能够自我检验关系、实体的准确性,并且依靠外部的规则验证机制,进一步提高准确率,整体架构如图1所示。

2、为了解决上述技术问题,本专利技术的技术方案为:

3、一种基于大模型与知识图谱融合的小样本三元组抽取方法,包括如下步骤:

4、s1、生成潜在关系对应实体类别的schema结构

5、所述潜在关系对应实体类别的schema结构,指给定潜在关系,并将潜在关系relation存在的头实体类别nerhead和尾实体类型nertail,将nerhead、relation和nertail拼接构造成schema所需的格式。

6、s1-1、设定实体类别生成任务描述和情景描述promptschema-icl、潜在关系promptschema-relation、引导输出提示promptschema-indicator

7、s1-2、将实体类别生成任务描述和情景描述promptschema-icl、潜在关系promptschema-relation、引导输出提示promptschema-indicator进行拼接得到实体类别schema的生成提示promptschema-generate

8、s1-3、依靠gpt模型mg,将实体类别schema的生成提示promptschema-generate作为gpt模型的输入,使其输出所有潜在关系对应实体类别的schema。

9、schema=generate(mg,promptschema-generate)

10、s2、基于uie模型生成数据ner标签

11、所述数据ner标签是指对数据集的句子进行命名实体识别,并将识别后的实体类别拼接在句子中。

12、s2-1、基于uie训练ner模型

13、通过支持集dsupport,依靠潜在关系对应实体类别的schema,对dtrain中存在的三元组头尾实体添加ner标签,得到ner后的支持集dner-support,表达式如下:

14、dner-support=generate(dsupport,schema)

15、将dner-support输入uie模型mner进行微调,表达式如下:

16、mner=finetune(muie,dner-support)

17、s2-2、基于微调的ner模型对测试集添加ner标签,其中ner标签从所有潜在关系头尾实体类型schemaner中预测,ner标签推理预测公式如下:

18、dner-query=mner(dquery,schemaner)

19、其中uie的预测流程需要ssl格式的输入数据,该格式采用了schema-base的提示机制,因此需要列举出待抽取所有可能存在的实体类型schemaner,最后将schema-base和待抽取语句作为uie的输入,预测出三元组序列相应的sel语言格式,最后在进行解码,得到抽取的命名实体识别序列,公式如下:

20、input=ssl(dtrain,promptner)

21、sel=uie(input)

22、outputner=decode(sel)

23、为了防止过拟合,微调过程中也加入了负样本,微调的loss采用了交叉熵损失,计算方式如下:

24、

25、其中θe和θd是编码器和解码器的参数,x是输入的token序列,s是ssi格式的语句输入,y表示输出的sel格式的命名实体识别序列。

26、s3、基于knn动态匹配支持集示例,首先依靠s2中得到的ner标签化后的支持集和查询集,计算两者的句子相似度,根据查询集语句,依靠knn从支持集中挑选与语句相似度最高的k个示例数据。

27、作为优选,使用simces方法进行相似度计算,所述simcse方法利用对比学习,在计算句子相似度的过程中,采用dropout技术,对原始文本进行数据增强,构造出正样本,用于对比学习训练,从而提高文本相似度模型的鲁棒性和泛化能力,公式如下:

28、本文档来自技高网...

【技术保护点】

1.一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述步骤S1的具体方法为:

3.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述NER标签生成模块针对支持集的标签注入公式如下:

4.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述NER标签生成模块针对查询集NER标签推理预测公式如下:

5.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述步骤S6中的验证方法为:筛选出由于GPT幻觉抽取的错误三元组,进而再编写具体规则对生成的三元组进一步进行外部验证,确保预测关系在潜在关系中、实体在原始句子中,公式如下:

6.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述步骤S6中,进行外部验证的方法为:

【技术特征摘要】

1.一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述步骤s1的具体方法为:

3.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述ner标签生成模块针对支持集的标签注入公式如下:

4.根据权利要求1所述的一种基于大模型与知识图谱融合的小样本三元组抽取方法,其特征在于,所述...

【专利技术属性】
技术研发人员:张旻曹旭涛姜明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1