【技术实现步骤摘要】
一种基于提示多模型协同的零样本关系抽取方法
[0001]本专利技术涉及信息抽取领域,具体来讲是一种基于提示多模型协同的零样本关系抽取方法。
技术介绍
[0002]信息抽取,即从自然语言文本中,抽取出特定的事实或事实信息,帮助我们将海量内容中自动分类、提取和重构。这些信息通常包括实体、关系、事件等。比如从新闻信息中抽取时间、地点、人物等信息,从病例数据中抽取患者症状、用药情况、疾病等信息。与其他自然语言任务相比,信息抽取任务更具有目的性,并能将抽取到的信息以指定的结构展现出现,从而达到从自然语言中提取用户感兴趣的事实信息的目的,在知识图谱领域中有着广泛的应用。
[0003]关系分类是信息抽取中的一项重要任务,旨在根据给定的两个实体的相关上下文,抽取它们之间的关系。关系分类因其在知识库构建、问答等下游任务中的广泛应用而备受关注,然而,现有的方法往往需要大规模的标注样本数据集,这些数据集标注成本高且具有固定的关系集合。
[0004]在关系分类任务中,如何在语义信息的基础上扩充其他文本信息是一大难点。通常情况下,由于文本句与实体对已知,传统方法依靠神经网络对文本句编码,从而捕获词汇的上下文信息,并利用编码获得的实体嵌入进行关系分类。上述方法基于的假设为:文本句中每个词汇均有助于关系分类,此类方法利用词汇的语义信息提高关系分类的效果。
[0005]但是传统的有监督RC方法无法满足关系分类的实际需求。在现实世界中,存在着海量的细粒度关系。并且,标注的关系类型是有限的,每种类型通常有一定数量的标注样本。不过
【技术保护点】
【技术特征摘要】
1.一种基于提示多模型协同的零样本关系抽取方法,其特征在于,包括如下步骤:S1、构造数据生成提示S1
‑
1、给定可见关系数据集,从可见关系数据集中挑选不同的示例数据,所述示例数据包括5组单关系三元组样例和多关系三元组样例;S1
‑
2、设定生成任务描述和情景表述Prompt
ICL
、未见关系、引导输出提示;S1
‑
3、将示例数据、生成任务描述和情景表述Prompt
ICL
、未见关系、引导输出提示进行拼接得到数据生成提示;S2、构建GPT模型,将数据生成提示作为GPT模型的输入,使其输出未见关系的数据,公式如下:D
synthetic
=Generate(M
g
,Prompt)S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法;S4、利用关系抽取模块进行关系分类抽取和关系三元组抽取,关系分类抽取推理预测公式如下:Relation=Predict(MC
finetune
,S
u
,E
head
,E
tail
)关系三元组抽取推理预测公式如下:Triple=Predict(ME
finetune
,S
u
)。2.根据权利要求1所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述单关系三元组样例是指所选示例数据均为同一关系;所述多关系三元组样例是指所选示例数据均为不同关系。3.根据权利要求2所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述未见关系指的是未在可见关系数据集D
seen
中出现过的任意关系。4.根据权利要求3所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述未见关系数据包括经命名的未见关系的句子、未见关系句子中的三元组。5.根据权利要求4所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述步骤S2中,将数据生成提示作为GPT模型根据生成任务描述和情景表述Prompt
ICL
读取示例数据的背景,并根据引导输出提示依次未见关系的描述、未见关系的句子、未见关系句子中的三元组,最后根据未见关系对输出的未见关系进行命名。6.根据权利要求5所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述关系分类算法具体如下:首先列举出待抽取语句所有可能存在的未见关系,所有可能存在的未见关系之间用[L]标签连接,将其记为潜在关系类别语句Prompt
relation
;构造待抽取语句的实体提示Prompt
entity
,实体提示是指待抽取语句中三元组的头实体和尾实体之间的关系提示,模板为“头实体和尾实体之间的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。