一种基于提示多模型协同的零样本关系抽取方法技术

技术编号:39038975 阅读:17 留言:0更新日期:2023-10-10 11:51
本发明专利技术公开了一种基于提示多模型协同的零样本关系抽取方法,包括如下步骤:S1、构造数据生成提示;S2、构建GPT模型,将数据生成提示作为GPT模型的输入,使其输出未见关系的数据;S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法;S4、利用关系抽取模块进行关系抽取和关系三元组抽取。该方法利用生成提示引导GPT大模型进行合成数据生成,进行数据扩充,之后再通过构造实体提示和Schema提示,融入输入的待抽取句子中,利用UTC中的统一语义匹配USM实现零样本关系的抽取,依靠UIE实现零样本关系三元组的抽取。依靠UIE实现零样本关系三元组的抽取。依靠UIE实现零样本关系三元组的抽取。

【技术实现步骤摘要】
一种基于提示多模型协同的零样本关系抽取方法


[0001]本专利技术涉及信息抽取领域,具体来讲是一种基于提示多模型协同的零样本关系抽取方法。

技术介绍

[0002]信息抽取,即从自然语言文本中,抽取出特定的事实或事实信息,帮助我们将海量内容中自动分类、提取和重构。这些信息通常包括实体、关系、事件等。比如从新闻信息中抽取时间、地点、人物等信息,从病例数据中抽取患者症状、用药情况、疾病等信息。与其他自然语言任务相比,信息抽取任务更具有目的性,并能将抽取到的信息以指定的结构展现出现,从而达到从自然语言中提取用户感兴趣的事实信息的目的,在知识图谱领域中有着广泛的应用。
[0003]关系分类是信息抽取中的一项重要任务,旨在根据给定的两个实体的相关上下文,抽取它们之间的关系。关系分类因其在知识库构建、问答等下游任务中的广泛应用而备受关注,然而,现有的方法往往需要大规模的标注样本数据集,这些数据集标注成本高且具有固定的关系集合。
[0004]在关系分类任务中,如何在语义信息的基础上扩充其他文本信息是一大难点。通常情况下,由于文本句与实体对已知,传统方法依靠神经网络对文本句编码,从而捕获词汇的上下文信息,并利用编码获得的实体嵌入进行关系分类。上述方法基于的假设为:文本句中每个词汇均有助于关系分类,此类方法利用词汇的语义信息提高关系分类的效果。
[0005]但是传统的有监督RC方法无法满足关系分类的实际需求。在现实世界中,存在着海量的细粒度关系。并且,标注的关系类型是有限的,每种类型通常有一定数量的标注样本。不过当预测没有训练样本的类型时,模型的预测能力将会受限,无法泛化到新的标签。例如,在图1中,歌手是一种训练集中未见过的关系类型,在训练阶段没有对该关系标注。为了解决这种问题,需要模型拥有在零样本场景下进行关系抽取的能力。
[0006]目前,针对零样本集的研究较少,而模型需要泛化到没有可用标注样本的关系集。零样本关系分类(Zero

Shot Relation Classification1,ZeroRC)是最先引入零样本关系分类的方法,用于对给定的头尾实体对之间的关系进行分类,用于识别未见到的标签,主要思想是通过阅读理解,文本蕴含等方法来利用迁移学习过程。然而,这些方法需要依赖人工的描述信息来提高关系类型的可理解性,这种方法仅仅依靠给定实体去进行关系分类,在关系标签空间中也忽略了丰富的语义知识。Zero

Shot Relation Slot

Filling方法旨在根据提供的头部实体和关系预测尾部实体,同时也依赖其他方法进行实体检测,因此,在实践中也面临着误差传播的挑战,零样本关系抽取样例及任务说明如图一所示。

技术实现思路

[0007]在综合考量上述问题后,本专利技术针对现有技术存在的问题,提出一种基于提示多模型协同的零样本关系抽取方法,该方法利用生成提示引导GPT大模型进行合成数据生成,
进行数据扩充,之后再通过构造实体提示和Schema提示,融入输入的待抽取句子中,利用UTC中的统一语义匹配USM实现零样本关系的抽取,依靠UIE实现零样本关系三元组的抽取。
[0008]为了解决上述技术问题,本专利技术的技术方案为:
[0009]一种基于提示多模型协同的零样本关系抽取方法,包括如下步骤:
[0010]S1、构造数据生成提示
[0011]S1

1、给定可见关系数据集D
seen
,从可见关系数据集中挑选不同的示例数据,所述示例数据包括5组单关系三元组样例和多关系三元组样例,表达式如下:
[0012]D
select
=∑
r∈relations select(D
seen
,k

shot,D
relation=r
)
[0013]D
sample
=select(D
select
,relation
same
)+select(D
select
,relation
multi
)
[0014]S1

2、设定生成任务描述和情景表述Prompt
ICL
、未见关系Prompt
input
、引导输出提示Prompt
indicator

[0015]S1

3、将示例数据D
sample
、生成任务描述和情景表述Prompt
ICL
、未见关系Prompt
input
、引导输出提示Prompt
indicator
进行拼接得到数据生成提示Prompt
generate

[0016]S2、构建GPT模型,将数据生成提示Prompt
generate
作为GPT模型的输入,使其输出未见关系的数据,公式如下:
[0017]D
synthetic
=Generate(M
g
,Prompt)
[0018]S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法
[0019]D
train
=D
synthetic
+D
sample

[0020]S4、利用关系抽取模块进行关系抽取和关系三元组抽取,关系分类推理预测公式如下:
[0021]Relation=Predict(MC
finetune
,S
u
,E
head
,E
tail
)
[0022]关系三元组抽取推理预测公式如下:
[0023]Triple=Predict(Me
finetune
,S
u
)。
[0024]作为优选,所述单关系三元组样例是指所选示例数据均为同一关系;所述多关系三元组样例是指所选示例数据均为不同关系。
[0025]具体的,根据数据任务,挑选不同的示例数据,分为单关系三元组样例和多关系三元组样例,用于生成不同类型的数据,其中单一关系三元组样例是指所选样例均为同一关系,生成的未见关系数据也是单一关系;而多关系三元组样例是指所选样例均为不同关系,生成的语句样例中,三元组也需要包含不同类型的关系。
[0026]作为优选,所述未见关系Prompt
input
指的是未在可见关系数据集D
seen
中出现过的任意关系。
[0027]作为优选,所述未见关系数据包括经命名的未见关系的句子、未见关系句子中的三元组。
[0028]作为优选,所述步骤S2中,将数据生成提示Prompt
generate...

【技术保护点】

【技术特征摘要】
1.一种基于提示多模型协同的零样本关系抽取方法,其特征在于,包括如下步骤:S1、构造数据生成提示S1

1、给定可见关系数据集,从可见关系数据集中挑选不同的示例数据,所述示例数据包括5组单关系三元组样例和多关系三元组样例;S1

2、设定生成任务描述和情景表述Prompt
ICL
、未见关系、引导输出提示;S1

3、将示例数据、生成任务描述和情景表述Prompt
ICL
、未见关系、引导输出提示进行拼接得到数据生成提示;S2、构建GPT模型,将数据生成提示作为GPT模型的输入,使其输出未见关系的数据,公式如下:D
synthetic
=Generate(M
g
,Prompt)S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法;S4、利用关系抽取模块进行关系分类抽取和关系三元组抽取,关系分类抽取推理预测公式如下:Relation=Predict(MC
finetune
,S
u
,E
head
,E
tail
)关系三元组抽取推理预测公式如下:Triple=Predict(ME
finetune
,S
u
)。2.根据权利要求1所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述单关系三元组样例是指所选示例数据均为同一关系;所述多关系三元组样例是指所选示例数据均为不同关系。3.根据权利要求2所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述未见关系指的是未在可见关系数据集D
seen
中出现过的任意关系。4.根据权利要求3所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述未见关系数据包括经命名的未见关系的句子、未见关系句子中的三元组。5.根据权利要求4所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述步骤S2中,将数据生成提示作为GPT模型根据生成任务描述和情景表述Prompt
ICL
读取示例数据的背景,并根据引导输出提示依次未见关系的描述、未见关系的句子、未见关系句子中的三元组,最后根据未见关系对输出的未见关系进行命名。6.根据权利要求5所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述关系分类算法具体如下:首先列举出待抽取语句所有可能存在的未见关系,所有可能存在的未见关系之间用[L]标签连接,将其记为潜在关系类别语句Prompt
relation
;构造待抽取语句的实体提示Prompt
entity
,实体提示是指待抽取语句中三元组的头实体和尾实体之间的关系提示,模板为“头实体和尾实体之间的...

【专利技术属性】
技术研发人员:张旻曹旭涛姜明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1