关系抽取方法、装置、设备、存储介质和计算机程序产品制造方法及图纸

技术编号:33080743 阅读:11 留言:0更新日期:2022-04-15 10:33
本申请涉及一种关系抽取方法、装置、设备、存储介质和计算机程序产品。所述方法包括:获取实例集合中每个实例对应的关系特征;实例集合中包括已知关系的实例和未知关系的实例;根据关系特征,从实例集合中识别未知关系的实例,作为待标注实例;待标注实例中各实体之间的关系是未知的;从待标注实例中选取目标实例,并获取针对目标实例标注的关系信息;目标实例所含信息量大于待标注实例中除目标实例外的非目标实例所含的信息量;基于标注关系信息后的目标实例训练关系分类器;关系信息表征目标实例中各实体之间的关系;基于训练完成后的关系分类器,标注非目标实例中各实体之间的关系。采用本方法能够节省人力成本和时间成本。本。本。

【技术实现步骤摘要】
关系抽取方法、装置、设备、存储介质和计算机程序产品


[0001]本申请涉及计算机
,特别是涉及一种关系抽取方法、装置、设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,关系抽取在很多业务场景下得到了广泛应用,比如,关系抽取可应用于知识图谱(Knowledge Graph)的构建过程中。知识图谱称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形。知识图谱用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱可广泛应用于各种业务领域。
[0003]传统技术中,主要是通过人工标注各实体之间的关系。然而,通过人力对各实体之间的关系进行人工标注的方式,需要花费大量的人力成本和时间成本。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够节省人力成本和时间成本的关系抽取方法、装置、设备、存储介质和计算机程序产品。
[0005]一种关系抽取方法,所述方法包括:
[0006]获取实例集合中每个实例对应的关系特征;所述实例集合中包括已知关系的实例和未知关系的实例;
[0007]根据所述关系特征,从实例集合中识别未知关系的实例,作为待标注实例;所述待标注实例中各实体之间的关系是未知的;
[0008]从所述待标注实例中选取目标实例,并获取针对所述目标实例标注的关系信息;所述目标实例所含信息量大于所述待标注实例中除所述目标实例外的非目标实例所含的信息量;<br/>[0009]基于标注关系信息后的所述目标实例训练关系分类器;所述关系信息表征所述目标实例中各实体之间的关系;
[0010]基于训练完成后的关系分类器,标注所述非目标实例中各实体之间的关系。
[0011]一种关系抽取装置,所述装置包括:
[0012]获取模块,用于获取实例集合中每个实例对应的关系特征;所述实例集合中包括已知关系的实例和未知关系的实例;
[0013]识别模块,用于根据所述关系特征,从实例集合中识别未知关系的实例,作为待标注实例;所述待标注实例中各实体之间的关系是未知的;
[0014]选取模块,用于从所述待标注实例中选取目标实例,并获取针对所述目标实例标注的关系信息;所述目标实例所含信息量大于所述待标注实例中除所述目标实例外的非目标实例所含的信息量;
[0015]训练模块,用于基于标注关系信息后的所述目标实例训练关系分类器;所述关系
信息表征所述目标实例中各实体之间的关系;
[0016]标注模块,用于基于训练完成后的关系分类器,标注所述非目标实例中各实体之间的关系。
[0017]在一个实施例中,所述每个实例中包括至少两个实体;所述获取模块还用于将实例集合中每个实例分别输入已训练的语言模型,以基于所述已训练的语言模型识别所述每个实例中各实体之间的关系,得到所述每个实例对应的关系特征。
[0018]在一个实施例中,所述训练模块还用于获取待训练的语言模型;获取样本实例集合;所述样本实例集合包括自定义的已知关系的样本实例;通过所述样本实例集合优化训练所述待训练的语言模型,得到已训练的语言模型。
[0019]在一个实施例中,所述训练模块还用于将所述样本实例集合输入至待训练的语言模型,获取所述待训练的语言模型针对所述样本实例集合中的样本实例输出的预测关系特征;根据所述待训练的语言模型中的第一目标函数和第二目标函数确定损失值;所述第一目标函数,用于度量同一所述样本实例对应的所述预测关系特征与已知关系特征之间的差异;所述已知关系特征,用于表征所述样本实例的已知关系;所述第二目标函数,用于约束各个所述样本实例所对应的所述预测关系特征的分布;基于所述损失值调整所述待训练的语言模型的模型参数,以继续迭代训练,直至满足迭代停止条件得到已训练的语言模型。
[0020]在一个实施例中,每两个实体为一个实体对;所述实体对包括头实体和尾实体;所述获取模块还用于针对实例集合的每个实例中的每个实体对,在所述实体对中头实体的前后分别插入头实体起始位置标识符和头实体终止位置标识符,在所述实体对中的尾实体的前后分别插入尾实体起始位置标识符和尾实体终止位置标识符,得到各个预处理后的实例;将每个预处理后的实例输入至已训练的语言模型,依次经过所述已训练的语言模型中的各个隐藏层进行特征提取;针对每个预处理后的实例,获取最后一个所述隐藏层输出的与所述预处理后的实例中的所述头实体起始位置标识符对应的第一隐层特征向量,以及与所述尾实体起始位置标识符对应的第二隐层特征向量;将所述第一隐层特征向量与所述第二隐层特征向量进行向量拼接,得到所述实例对应的关系特征。
[0021]在一个实施例中,所述识别模块还用于在语义空间中,根据所述关系特征之间的语义相似度,对所述实例集合中的各实例进行聚类;确定聚类后的每个实例对应的局部离群因子;将所述局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。
[0022]在一个实施例中,所述识别模块还用于针对聚类后的每个实例,分别确定所述实例到邻域内的各个参考实例之间的可达性距离;根据各个所述可达性距离,确定所述实例到邻域内各个参考实例的第一平均可达距离;针对每个所述参考实例,确定所述参考实例到所述参考实例的邻域内的各个实例的第二平均可达距离;根据所述第一平均可达距离、以及各个所述参考实例分别对应的所述第二平均可达距离,确定所述实例的局部离群因子。
[0023]在一个实施例中,所述选取模块还用于从所述待标注实例中选取用于首轮对抗训练的目标实例,并获取对选取的目标实例标注的关系信息;将首轮确定为本轮,基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练,并通过本轮对抗训练后的编码器对当前的待标注实例编码,得到所述当前的待标注实例对应的关系特征;通过本轮对抗训练后的判别器,基于所述当前的待标注实例对应的关系特征,从所述当前的待标注
实例中选取目标实例,并获取针对选取的目标实例标注的关系信息;将所述当前的待标注实例中剩余未标注的待标注实例,作为下一轮的当前的待标注实例,将下一轮作为本轮,返回执行所述基于已标注有关系信息的目标实例在本轮对编码器和判别器进行对抗训练的步骤以继续执行,直至满足迭代停止条件时停止对抗训练;获取在每轮对抗训练过程中选取的目标实例,以及针对选取的目标实例标注的关系信息。
[0024]在一个实施例中,所述选取模块还用于通过本轮对抗训练后的判别器,基于所述当前的待标注实例对应的关系特征,确定各所述当前的待标注实例对应的置信度;所述置信度,用于表征所述当前的待标注实例所含信息量的丰富程度;基于所述置信度从高到低的顺序,从各所述当前的待标注实例中选取预设数量的实例作为目标实例,并获取针对选取的目标实例标注的关系信息。
[0025]在一个实施例中,所述训练模块还用于将标注关系信息后的所述目标实例输入至待训练的关系分类器;通过所述待训练的关系分类器,预测所述目标实例对应的预测关系信息;基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关系抽取方法,其特征在于,所述方法包括:获取实例集合中每个实例对应的关系特征;所述实例集合中包括已知关系的实例和未知关系的实例;根据所述关系特征,从实例集合中识别未知关系的实例,作为待标注实例;所述待标注实例中各实体之间的关系是未知的;从所述待标注实例中选取目标实例,并获取针对所述目标实例标注的关系信息;所述目标实例所含信息量大于所述待标注实例中除所述目标实例外的非目标实例所含的信息量;基于标注关系信息后的所述目标实例训练关系分类器;所述关系信息表征所述目标实例中各实体之间的关系;基于训练完成后的关系分类器,标注所述非目标实例中各实体之间的关系。2.根据权利要求1所述的方法,其特征在于,所述每个实例中包括至少两个实体;所述获取实例集合中每个实例对应的关系特征,包括:将实例集合中每个实例分别输入已训练的语言模型,以基于所述已训练的语言模型识别所述每个实例中各实体之间的关系,得到所述每个实例对应的关系特征。3.根据权利要求2所述的方法,其特征在于,所述已训练的语言模型通过语言模型训练步骤得到,所述语言模型训练步骤,包括:获取待训练的语言模型;获取样本实例集合;所述样本实例集合包括自定义的已知关系的样本实例;通过所述样本实例集合优化训练所述待训练的语言模型,得到已训练的语言模型。4.根据权利要求3所述的方法,其特征在于,所述通过所述样本实例集合优化训练所述待训练的语言模型,得到已训练的语言模型,包括:将所述样本实例集合输入至待训练的语言模型,获取所述待训练的语言模型针对所述样本实例集合中的样本实例输出的预测关系特征;根据所述待训练的语言模型中的第一目标函数和第二目标函数确定损失值;所述第一目标函数,用于度量同一所述样本实例对应的所述预测关系特征与已知关系特征之间的差异;所述已知关系特征,用于表征所述样本实例的已知关系;所述第二目标函数,用于约束各个所述样本实例所对应的所述预测关系特征的分布;基于所述损失值调整所述待训练的语言模型的模型参数,以继续迭代训练,直至满足迭代停止条件得到已训练的语言模型。5.根据权利要求2所述的方法,其特征在于,每两个实体为一个实体对;所述实体对包括头实体和尾实体;所述将实例集合中每个实例分别输入已训练的语言模型,以基于所述已训练的语言模型识别所述每个实例中各实体之间的关系,得到所述每个实例对应的关系特征,包括:针对实例集合的每个实例中的每个实体对,在所述实体对中头实体的前后分别插入头实体起始位置标识符和头实体终止位置标识符,在所述实体对中的尾实体的前后分别插入尾实体起始位置标识符和尾实体终止位置标识符,得到各个预处理后的实例;将每个预处理后的实例输入至已训练的语言模型,依次经过所述已训练的语言模型中的各个隐藏层进行特征提取;
针对每个预处理后的实例,获取最后一个所述隐藏层输出的与所述预处理后的实例中的所述头实体起始位置标识符对应的第一隐层特征向量,以及与所述尾实体起始位置标识符对应的第二隐层特征向量;将所述第一隐层特征向量与所述第二隐层特征向量进行向量拼接,得到所述实例对应的关系特征。6.根据权利要求1所述的方法,其特征在于,所述根据所述关系特征,从实例集合中识别未知关系的实例,包括:在语义空间中,根据所述关系特征之间的语义相似度,对所述实例集合中的各实例进行聚类;确定聚类后的每个实例对应的局部离群因子;将所述局部离群因子大于或等于预设阈值的实例确定为未知关系的实例。7.根据权利要求6所述的方法,其特征在于,所述确定聚类后的每个实例对应的局部离群因子,包括:针对聚类后的每个实例,分别确定所述实例到邻域内的各个参考实例之间的可达性距离;根据各个所述可达性距离,确定所述实例到邻域内各个参考实例的第一平均可达距离;针对每个所述参考实例,确定所述参考实例到所述参考实例的邻域内的各个实例的第二平均可达距离;根据所述...

【专利技术属性】
技术研发人员:郦炀宁向玥佳陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1