基于层级实体排序和生成文本对比的开放域关系抽取方法及装置制造方法及图纸

技术编号：35846701 阅读：19 留言：0更新日期：2022-12-07 10:27

本发明专利技术了一种基于层级实体排序和生成文本对比的开放域关系抽取方法及装置，包括：利用因果介入，并通过层级实体排序和生成文本对比的方式训练编码器；将无标注数据集中每一实例输入训练好的编码器，得到该实例的关系表示；依据所述关系表示进行聚类，得到关系抽取结果。本发明专利技术利用因果介入方式，排除数据集中混淆因子的影响，并避免了模型不稳定的问题。并避免了模型不稳定的问题。并避免了模型不稳定的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于层级实体排序和生成文本对比的开放域关系抽取方法及装置

[0001]本专利技术设计一种开放域关系表示方法，特别是涉及一种基于层级实体排序和生成文本对比的开放域关系抽取方法及装置，属于自然语言处理

技术介绍

[0002]关系抽取是信息抽取以及自然语言处理中的一个关键任务。该任务的目标是在给定上下文中，识别出一对实体所表达的关系类别。例如。给定上下文“A当选为B国总统”，以及实体对“A”和“B国”，一个关系分类系统应当能够正确识别出该实体对表达了“是
…
的总统”的关系。
[0003]近年来，随着深度学习方法的发展，关系分类系统的准确率有了大幅提升。但这类方法对标注数据的数量有较高要求，导致训练模型所需的标注成本过大。同时，此类方法得到的模型泛化性较差，无法迁移到新的关系和领域。
[0004]为此，开放域关系抽取任务近年来得到广泛关注。该任务不预先定义要抽取的关系类别，只给定大量的无标注句子，每个句子中含有待关系分类的实体对。模型需要根据大量无标注句子所体现的特征，对其进行聚类，同一聚类中的句子被认为拥有相同关系。最终达到开放域关系抽取的目的。
[0005]传统开放域关系抽取方法主要分为两大类，第一类为生成式方法。该类将开放域关系抽取任务视为主题模型任务，并利用人工抽取特征生成潜在的关系类别。第二类为判别式方法。该类方法利用启发式的监督信号进行模型的训练和更新。
[0006]然而，由于开放域关系抽取任务缺乏明确的监督信号，上述方法容易受到数据集中存在的伪相关线索...

【技术保护点】

【技术特征摘要】
1.一种基于层级实体排序和生成文本对比的开放域关系抽取方法，其步骤包括：1)将无标注数据集中每一实例输入训练好的编码器，得到该实例的关系表示；2)依据所述关系表示进行聚类，得到关系抽取结果；其中，通过以下步骤得到训练好的编码器：a)在样本数据集中任一样本实例中，提取一实体，并在知识库中选取若干知识实体，建立层级实体树，其中层级实体树中高层级实体与该实体有更接近的元类型，底层级实体与该实体的元类型差异更大；；b)在层级实体树中的每一层选取一知识实体，将选取的知识实体替换到样本实例中，根据替换实体在层级树中层级高低生成语义关系顺序，并根据语义关系顺序与该样本实例中的关系实例进行排序学习，计算排序损失函数；c)依据该样本实例中的关系实例，获取实体对，并结合在知识库中抽取的该关系实例别名、分别与该关系实例及实体对不同的知识关系实例、知识实体，组成原始三元组、别名三元组、拓展三元组及其他三元组；d)将别名三元组与扩展三元组中相同关系实例的三元组为正例，其他三元组与扩展三元组中不相同关系实例的三元组为负例，并将正例、负例与原始三元组进行对比，计算对比损失函数；e)利用排序损失函数与对比损失函数，训练预训练的编码器，直到得到训练好的编码器。2.如权利要求1所述的方法，其特征在于，所述知识库包括：WikiData知识库。3.如权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：孙乐，刘方超，林鸿宇，韩先培，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人