关系抽取模型训练方法及装置、电子设备和存储介质制造方法及图纸

技术编号:37666922 阅读:16 留言:0更新日期:2023-05-26 04:26
本公开公开了一种关系抽取模型训练方法及装置、电子设备和存储介质,涉及人工智能技术领域,具体为机器学习技术领域。具体为:获取样本数据,样本数据包括文本数据及标注数据,文本数据包含实体及实体关系,标注数据包括实体标注数据及实体关系标注数据;将文本数据及实体标注数据输入初始关系抽取模型,进行第一阶段训练;利用抽取出的实体构造实体对,依据文本数据、实体对及实体关系标注数据对初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型;其中,初始关系抽取模型的输入为待抽取文本及抽取目标,输出为待抽取的文本数据中抽取目标指示的内容。本公开可以不用标注三元组,且训练得到的模型可以实现开放域的实体关系抽取。系抽取。系抽取。

【技术实现步骤摘要】
关系抽取模型训练方法及装置、电子设备和存储介质


[0001]本公开涉及人工智能
,具体为机器学习
尤其涉及一种关系抽取模型训练方法及装置、电子设备和存储介质。

技术介绍

[0002]关系抽取是自然语言处理领域中一项关键技术,其目的是从一段文本中抽取出(主体,关系,客体)这样的三元组。关系抽取可以为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑,在智能风控、量化投资、搜索推荐等业务上有很好的应用价值。
[0003]相关技术中,将上述关系抽取任务分为有监督的关系抽取和远程监督的关系抽取。其中,有监督的关系抽取通过已标注的三元组训练得到关系抽取模型,该方式模型效果对数据量的依赖较大,需要耗费大量的人力和时间。远程监督的关系抽取可以通过已有的外部知识库来标注已有的文本数据,大大减小了数据标注的成本,但由于具有很强的假设性,歧义很多,大大影响了模型的性能。
[0004]为了解决相关技术中的上述问题,本公开提供了一种关系抽取模型训练方法及装置、电子设备和存储介质。

技术实现思路

[0005]本公开提供了一种关系抽取模型训练方法及装置、电子设备和存储介质,主要目的在于解决相关技术中存在的对数据量的依赖较大,需要耗费大量的人力和时间、由于歧义较多影响模型性能等问题。
[0006]根据本公开的第一方面,提供了一种关系抽取模型训练方法,包括:
[0007]获取样本数据,样本数据包括文本数据及标注数据,文本数据包含实体及实体关系,标注数据包括实体标注数据及实体关系标注数据
[0008]将文本数据及实体标注数据输入初始关系抽取模型,对初始关系抽取模型进行第一阶段训练,上述第一阶段训练用于训练初始关系抽取模型从文本数据中抽取实体;
[0009]利用第一阶段训练抽取出的实体构造实体对,依据文本数据、实体对及实体关系标注数据对初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,上述第二阶段训练用于训练初始关系抽取模型从文本数据中抽取实体对间的实体关系;
[0010]其中,上述初始关系抽取模型的输入为待抽取文本及抽取目标,输出为待抽取文本中抽取目标指示的内容。
[0011]根据本公开的第二方面,提供了一种关系抽取方法,包括:
[0012]获取待抽取文本,将待抽取样本转化为符合目标关系抽取模型的输入要求的数据格式;
[0013]将待抽取样本及实体抽取目标输入目标关系抽取模型,输出待抽取样本中的目标实体;
[0014]利用目标实体构造实体对,将待抽取文本及实体对的实体关系抽取目标输入目标
关系抽取模型,输出目标实体之间的实体关系。
[0015]根据本公开的第三方面,提供了一种关系抽取模型训练装置,包括:
[0016]样本数据获取模块,用于获取样本数据,样本数据包括文本数据及标注数据,文本数据包含实体及实体关系,标注数据包括实体标注数据及实体关系标注数据;
[0017]第一阶段训练模块,用于将文本数据及实体标注数据输入初始关系抽取模型,对初始关系抽取模型进行第一阶段训练,上述第一阶段训练用于训练初始关系抽取模型从文本数据中抽取实体;
[0018]目标模型训练模块,用于利用第一阶段训练抽取出的实体构造实体对,依据文本数据、实体对及实体关系标注数据对初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,上述第二阶段训练用于训练初始关系抽取模型从文本数据中抽取实体对间的实体关系;
[0019]其中,上述初始关系抽取模型的输入为待抽取文本及抽取目标,输出为待抽取文本中抽取目标指示的内容。
[0020]根据本公开的第四方面,提供了一种关系抽取装置,包括:
[0021]输入模块,用于获取待抽取文本,将待抽取样本转化为符合目标关系抽取模型的输入要求的数据格式;
[0022]第一阶段抽取模块,用于将待抽取样本及实体抽取目标输入目标关系抽取模型,输出待抽取样本中的目标实体;
[0023]第二阶段抽取模块,用于利用目标实体构造实体对,将待抽取文本及实体对的实体关系抽取目标输入目标关系抽取模型,输出目标实体之间的实体关系。
[0024]根据本公开的第五方面,提供了一种电子设备,包括:
[0025]至少一个处理器;以及
[0026]与所述至少一个处理器通信连接的存储器;其中,
[0027]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述一方面中任一项所述的方法。
[0028]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述一方面中任一项所述的方法。
[0029]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现前述一方面中任一项所述的方法。
[0030]在本公开一个或多个实施例中,获取样本数据,样本数据包括文本数据及标注数据,文本数据包含实体及实体关系,标注数据包括实体标注数据及实体关系标注数据;将文本数据及实体标注数据输入初始关系抽取模型,对初始关系抽取模型进行第一阶段训练,上述第一阶段训练用于训练初始关系抽取模型从文本数据中抽取实体;利用第一阶段训练抽取出的实体构造实体对,依据文本数据、实体对及实体关系标注数据对初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,上述第二阶段训练用于训练初始关系抽取模型从文本数据中抽取实体对间的实体关系;其中,上述初始关系抽取模型的输入为待抽取文本及抽取目标,输出为待抽取文本中抽取目标指示的内容。本公开实施例提供的关系抽取训练方法中,一方面,初始关系抽取模型可以依据抽取目标从待抽取文本中抽取出对应的内容,因此,在模型训练时,无需进行大量的数据标注。另一方面,本公开实施例基于两
阶段训练关系抽取模型,第一阶段训练抽取实体,第二阶段抽取第一阶段抽取出的实体之间的实体关系,无需预先标注三元组。此外,本公开实施例所训练的关系抽取模型可以实现开放域上的实体关系提取。
[0031]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0032]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0033]图1示出本公开实施例提供的一种关系抽取模型训练方法的流程示意图;
[0034]图2是根据本公开第一实施例的一种关系抽取模型训练方法的初始关系抽取模型的结构示意图;
[0035]图3示出本公开实施例提供的一种关系抽取模型训练方法的流程示意图;
[0036]图4是根据本公开第一实施例的一种关系抽取方法的流程示意图;
[0037]图5是用来实现本公开实施例的关系抽取模型训练装置的结构示意图;
[0038]图6是用来实现本公开实施例的关系抽取装置的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关系抽取模型训练方法,包括:获取样本数据,所述样本数据包括文本数据及标注数据,所述文本数据包含实体及实体关系,所述标注数据包括实体标注数据及实体关系标注数据;将所述文本数据及所述实体标注数据输入初始关系抽取模型,对所述初始关系抽取模型进行第一阶段训练,所述第一阶段训练用于训练所述初始关系抽取模型从所述文本数据中抽取所述实体;利用所述第一阶段训练抽取出的所述实体构造实体对,依据所述文本数据、所述实体对及所述实体关系标注数据对所述初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,所述第二阶段训练用于训练所述初始关系抽取模型从所述文本数据中抽取所述实体对间的所述实体关系;其中,所述初始关系抽取模型的输入为待抽取文本及抽取目标,输出为所述待抽取文本中所述抽取目标指示的内容。2.根据权利要求1所述的关系抽取模型训练方法,其特征在于,所述样本数据还包括验证数据集;在得到所述目标关系抽取模型后,所述方法还包括:将所述验证数据集中的所述文本数据输入所述目标关系抽取模型,输出所述验证数据集中所述文本数据的关系抽取结果,并将所述关系抽取结果与所述文本数据的所述标注数据比较,得到抽取准确率;当所述抽取准确率小于预设阈值时,修正所述目标关系抽取模型。3.根据权利要求2所述的关系抽取模型训练方法,其特征在于,所述当所述抽取准确率小于预设阈值时,修正所述目标关系抽取模型,包括:对于所述样本数据,确定所述文本数据的多个负样本,所述负样本包括所述文本数据的所述实体之间不存在的实体关系;将所述文本数据、所述文本数据的实体,以及所述负样本输入所述目标关系抽取模型,以修正所述目标关系抽取模型。4.根据权利要求1所述的关系抽取模型训练方法,其特征在于,所述将所述文本数据及所述实体标注数据输入初始关系抽取模型,对所述初始关系抽取模型进行第一阶段训练,包括:将所述文本数据作为所述待抽取文本,将所述实体的名称作为所述抽取目标,输入所述初始关系抽取模型,得到实体抽取结果;依据所述实体抽取结果与所述实体标注数据的差异,训练所述初始关系抽取模型,完成所述第一阶段训练。5.根据权利要求4所述的关系抽取模型训练方法,其特征在于,所述依据所述文本数据、所述实体对及所述实体关系标注数据对所述初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,包括:将所述文本数据作为所述待抽取文本,将所述实体对之间的关系作为抽取目标,输入所述初始关系抽取模型,输出所述实体对之间的关系抽取结果;依据所述关系抽取结果与所述实体关系标注数据之间的差异,训练所述初始关系抽取模型,得到所述目标关系抽取模型。
6.根据权利要求1所述的关系抽取模型训练方法,其特征在于,所述方法还包括:将所述样本数据转化为符合所述初始关系抽取模型输入要求的目标格式。7.一种关系抽取方法,其特征在于,所述方法包括:获取待抽取文本,将所述待抽取样本转化为符合目标关系抽取模型的输入要求的数据格式;将所述待抽取样本及实体抽取目标输入所述目标关系抽取模型,输出所述待抽取样本中的目标实体;利用所述目标实体构造实体对,将所述待抽取文本及所述实体对的实体关系抽取目标输入所述目标关系抽取模型,输出所述目标实体之间的实体关系。8.一种关系抽取模型训练装置,包括:样本数据获取模块,用于获取样本数据,所述样本数据包括文本数据及标注数据,所述文本数据包含实体及实体关系,所述标注数据包括实体标注数据及实体关系标注数据;第一阶段训练模块,用于将所述文本数据及所述实体标注数据输入初...

【专利技术属性】
技术研发人员:崔壮壮付波
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1