基于层级实体排序和生成文本对比的开放域关系抽取方法及装置制造方法及图纸

技术编号:35846701 阅读:19 留言:0更新日期:2022-12-07 10:27
本发明专利技术了一种基于层级实体排序和生成文本对比的开放域关系抽取方法及装置,包括:利用因果介入,并通过层级实体排序和生成文本对比的方式训练编码器;将无标注数据集中每一实例输入训练好的编码器,得到该实例的关系表示;依据所述关系表示进行聚类,得到关系抽取结果。本发明专利技术利用因果介入方式,排除数据集中混淆因子的影响,并避免了模型不稳定的问题。并避免了模型不稳定的问题。并避免了模型不稳定的问题。

【技术实现步骤摘要】
基于层级实体排序和生成文本对比的开放域关系抽取方法及装置


[0001]本专利技术设计一种开放域关系表示方法,特别是涉及一种基于层级实体排序和生成文本对比的开放域关系抽取方法及装置,属于自然语言处理


技术介绍

[0002]关系抽取是信息抽取以及自然语言处理中的一个关键任务。该任务的目标是在给定上下文中,识别出一对实体所表达的关系类别。例如。给定上下文“A当选为B国总统”,以及实体对“A”和“B国”,一个关系分类系统应当能够正确识别出该实体对表达了“是

的总统”的关系。
[0003]近年来,随着深度学习方法的发展,关系分类系统的准确率有了大幅提升。但这类方法对标注数据的数量有较高要求,导致训练模型所需的标注成本过大。同时,此类方法得到的模型泛化性较差,无法迁移到新的关系和领域。
[0004]为此,开放域关系抽取任务近年来得到广泛关注。该任务不预先定义要抽取的关系类别,只给定大量的无标注句子,每个句子中含有待关系分类的实体对。模型需要根据大量无标注句子所体现的特征,对其进行聚类,同一聚类中的句子被认为拥有相同关系。最终达到开放域关系抽取的目的。
[0005]传统开放域关系抽取方法主要分为两大类,第一类为生成式方法。该类将开放域关系抽取任务视为主题模型任务,并利用人工抽取特征生成潜在的关系类别。第二类为判别式方法。该类方法利用启发式的监督信号进行模型的训练和更新。
[0006]然而,由于开放域关系抽取任务缺乏明确的监督信号,上述方法容易受到数据集中存在的伪相关线索干扰,导致模型缺乏稳定性。

技术实现思路

[0007]为克服现有开放域关系抽取方法不稳定的问题,本专利技术提出了一种基于层级实体排序和生成文本对比的开放域关系抽取方法及装置,利用因果介入方式,提出了基于层级实体排序和生成文本对比的关系表示学习方法,从而避免了模型不稳定的问题。
[0008]为达到上述目的,本专利技术采用具体技术方案是:
[0009]一种基于层级实体排序和生成文本对比的开放域关系抽取方法,其步骤包括:
[0010]1)将无标注数据集中每一实例输入训练好的编码器,得到该实例的关系表示;
[0011]2)依据所述关系表示进行聚类,得到关系抽取结果;
[0012]其中,通过以下步骤得到训练好的编码器:
[0013]a)在样本数据集中任一样本实例中,提取一实体,并在知识库中选取若干知识实体,建立层级实体树,其中层级实体树中高层级实体与该实体有更接近的元类型,底层级实体与该实体的元类型差异更大;;
[0014]b)在层级实体树中的每一层选取一知识实体,将选取的知识实体替换到样本实例
中,根据替换实体在层级树中层级高低生成语义关系顺序,并根据语义关系顺序与该样本实例中的关系实例进行排序学习,计算排序损失函数;
[0015]c)依据该样本实例中的关系实例,获取实体对,并结合在知识库中抽取的该关系实例别名、分别与该关系实例及实体对不同的知识关系实例、知识实体,组成原始三元组、别名三元组、拓展三元组及其他三元组;
[0016]d)将别名三元组与扩展三元组中相同关系实例的三元组为正例,其他三元组与扩展三元组中不相同关系实例的三元组为负例,并将正例、负例与原始三元组进行对比,计算对比损失函数;
[0017]e)利用排序损失函数与对比损失函数,训练预训练的编码器,直到得到训练好的编码器。
[0018]进一步地,所述知识库包括:WikiData知识库。
[0019]进一步地,所述层级实体树中的知识实体包括:与该实体具有相同元类型的实体作为同胞实体,与该实体拥有相同二级元类型的实体为邻居实体和其他实体。
[0020]进一步地,原始三元组包括:实体对和关系实例。
[0021]进一步地,别名三元组包括:实体对和关系实例别名。
[0022]进一步地,通过以下步骤得到拓展三元组:
[0023]1)获取原始三元组的头实体、关系实例及尾实体;
[0024]2)从知识库中抽取与头实体相同的知识实体、与关系实例不同的知识关系实例、与尾实体不同的知识实体或与头实体不同的知识实体、与关系实例不同的知识关系实例、与尾实体相同的知识实体,组成待拓展三元组;
[0025]3)将待拓展三元组与原始三元组拼接,得到拓展三元组。
[0026]进一步地,其他三元组包括:实体对和与关系实例不同的知识关系实例。
[0027]进一步地,进行聚类的方法包括:K

means算法。
[0028]一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
[0029]一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
[0030]与现有技术相比,本专利技术的积极效果:
[0031]1)基于结构因果模型,发现数据集是其中的混淆因子,因此利用因果介入方式,提出了基于层级实体排序和生成文本对比的关系表示学习方法;
[0032]2)基于上述学习到的关系表示,对无标注关系实例进行聚类,完成开放域关系抽取,从而避免了模型不稳定的问题。
附图说明
[0033]图1为针对开放域关系抽取的结构因果模型图。
[0034]图2为层级实体排序和生成文本对比表示学习方法框架图。
具体实施方式
[0035]为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的
目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0036]本专利技术的开放域关系抽取方法,其关键步骤包括:
[0037]关键技术
[0038]1)基于结构因果模型对开放域关系抽取过程进行建模,使用结构因果模型建模开放域关系抽取过程中,数据集、实体对、上下文、关系表示及聚类结果之间的因果关系,发现由数据集所带来的混淆。
[0039]2)基于上述结构因果模型的发现,我们提出基于层级实体排序和生成文本对比的关系表示学习方法,在开放域场景下进行关系表示学习。
[0040]3)基于上述得到的关系表示,我们对这些关系表示进行聚类,得到开放域下关系抽取的结果。
[0041]本专利技术涉及以下所述的关键要素:
[0042]1.基于结构因果模型的开放域关系抽取过程建模
[0043]在开放域关系抽取任务中,大多数方法依赖大规模无标注关系实例,利用手工或启发式假设,从实例中的实体对以及上下文进行特征抽取或者监督信号建模。但这个过程往往伴随着大量伪相关线索,即实体对或者上下文与最终关系类型之间存在着伪相关联系,使得模型塌缩至某个特定关系或均匀预测,导致模型不稳定。
[0044]为找到模型不稳定的原因,我们通过结构因果模型对开放本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层级实体排序和生成文本对比的开放域关系抽取方法,其步骤包括:1)将无标注数据集中每一实例输入训练好的编码器,得到该实例的关系表示;2)依据所述关系表示进行聚类,得到关系抽取结果;其中,通过以下步骤得到训练好的编码器:a)在样本数据集中任一样本实例中,提取一实体,并在知识库中选取若干知识实体,建立层级实体树,其中层级实体树中高层级实体与该实体有更接近的元类型,底层级实体与该实体的元类型差异更大;;b)在层级实体树中的每一层选取一知识实体,将选取的知识实体替换到样本实例中,根据替换实体在层级树中层级高低生成语义关系顺序,并根据语义关系顺序与该样本实例中的关系实例进行排序学习,计算排序损失函数;c)依据该样本实例中的关系实例,获取实体对,并结合在知识库中抽取的该关系实例别名、分别与该关系实例及实体对不同的知识关系实例、知识实体,组成原始三元组、别名三元组、拓展三元组及其他三元组;d)将别名三元组与扩展三元组中相同关系实例的三元组为正例,其他三元组与扩展三元组中不相同关系实例的三元组为负例,并将正例、负例与原始三元组进行对比,计算对比损失函数;e)利用排序损失函数与对比损失函数,训练预训练的编码器,直到得到训练好的编码器。2.如权利要求1所述的方法,其特征在于,所述知识库包括:WikiData知识库。3.如权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:孙乐刘方超林鸿宇韩先培
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1