【技术实现步骤摘要】
关系抽取模型训练方法及装置、电子设备和存储介质
[0001]本公开涉及人工智能
,具体为机器学习
尤其涉及一种关系抽取模型训练方法及装置、电子设备和存储介质。
技术介绍
[0002]关系抽取是自然语言处理领域中一项关键技术,其目的是从一段文本中抽取出(主体,关系,客体)这样的三元组。关系抽取可以为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑,在智能风控、量化投资、搜索推荐等业务上有很好的应用价值。
[0003]相关技术中,将上述关系抽取任务分为有监督的关系抽取和远程监督的关系抽取。其中,有监督的关系抽取通过已标注的三元组训练得到关系抽取模型,该方式模型效果对数据量的依赖较大,需要耗费大量的人力和时间。远程监督的关系抽取可以通过已有的外部知识库来标注已有的文本数据,大大减小了数据标注的成本,但由于具有很强的假设性,歧义很多,大大影响了模型的性能。
[0004]为了解决相关技术中的上述问题,本公开提供了一种关系抽取模型训练方法及装置、电子设备和存储介质。
技术实现思路
[0005]本公开提供了一种关系抽取模型训练方法及装置、电子设备和存储介质,主要目的在于解决相关技术中存在的对数据量的依赖较大,需要耗费大量的人力和时间、由于歧义较多影响模型性能等问题。
[0006]根据本公开的第一方面,提供了一种关系抽取模型训练方法,包括:
[0007]获取样本数据,样本数据包括文本数据及标注数据,文本数据包含实体及实体关系,标注数据包括实体标注数据及实体关系标注数据 ...
【技术保护点】
【技术特征摘要】
1.一种关系抽取模型训练方法,包括:获取样本数据,所述样本数据包括文本数据及标注数据,所述文本数据包含实体及实体关系,所述标注数据包括实体标注数据及实体关系标注数据;将所述文本数据及所述实体标注数据输入初始关系抽取模型,对所述初始关系抽取模型进行第一阶段训练,所述第一阶段训练用于训练所述初始关系抽取模型从所述文本数据中抽取所述实体;利用所述第一阶段训练抽取出的所述实体构造实体对,依据所述文本数据、所述实体对及所述实体关系标注数据对所述初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,所述第二阶段训练用于训练所述初始关系抽取模型从所述文本数据中抽取所述实体对间的所述实体关系;其中,所述初始关系抽取模型的输入为待抽取文本及抽取目标,输出为所述待抽取文本中所述抽取目标指示的内容。2.根据权利要求1所述的关系抽取模型训练方法,其特征在于,所述样本数据还包括验证数据集;在得到所述目标关系抽取模型后,所述方法还包括:将所述验证数据集中的所述文本数据输入所述目标关系抽取模型,输出所述验证数据集中所述文本数据的关系抽取结果,并将所述关系抽取结果与所述文本数据的所述标注数据比较,得到抽取准确率;当所述抽取准确率小于预设阈值时,修正所述目标关系抽取模型。3.根据权利要求2所述的关系抽取模型训练方法,其特征在于,所述当所述抽取准确率小于预设阈值时,修正所述目标关系抽取模型,包括:对于所述样本数据,确定所述文本数据的多个负样本,所述负样本包括所述文本数据的所述实体之间不存在的实体关系;将所述文本数据、所述文本数据的实体,以及所述负样本输入所述目标关系抽取模型,以修正所述目标关系抽取模型。4.根据权利要求1所述的关系抽取模型训练方法,其特征在于,所述将所述文本数据及所述实体标注数据输入初始关系抽取模型,对所述初始关系抽取模型进行第一阶段训练,包括:将所述文本数据作为所述待抽取文本,将所述实体的名称作为所述抽取目标,输入所述初始关系抽取模型,得到实体抽取结果;依据所述实体抽取结果与所述实体标注数据的差异,训练所述初始关系抽取模型,完成所述第一阶段训练。5.根据权利要求4所述的关系抽取模型训练方法,其特征在于,所述依据所述文本数据、所述实体对及所述实体关系标注数据对所述初始关系抽取模型进行第二阶段训练,得到目标关系抽取模型,包括:将所述文本数据作为所述待抽取文本,将所述实体对之间的关系作为抽取目标,输入所述初始关系抽取模型,输出所述实体对之间的关系抽取结果;依据所述关系抽取结果与所述实体关系标注数据之间的差异,训练所述初始关系抽取模型,得到所述目标关系抽取模型。
6.根据权利要求1所述的关系抽取模型训练方法,其特征在于,所述方法还包括:将所述样本数据转化为符合所述初始关系抽取模型输入要求的目标格式。7.一种关系抽取方法,其特征在于,所述方法包括:获取待抽取文本,将所述待抽取样本转化为符合目标关系抽取模型的输入要求的数据格式;将所述待抽取样本及实体抽取目标输入所述目标关系抽取模型,输出所述待抽取样本中的目标实体;利用所述目标实体构造实体对,将所述待抽取文本及所述实体对的实体关系抽取目标输入所述目标关系抽取模型,输出所述目标实体之间的实体关系。8.一种关系抽取模型训练装置,包括:样本数据获取模块,用于获取样本数据,所述样本数据包括文本数据及标注数据,所述文本数据包含实体及实体关系,所述标注数据包括实体标注数据及实体关系标注数据;第一阶段训练模块,用于将所述文本数据及所述实体标注数据输入初...
【专利技术属性】
技术研发人员:崔壮壮,付波,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。