基于先验知识的实体关系抽取方法、装置及存储介质制造方法及图纸

技术编号:39280732 阅读:5 留言:0更新日期:2023-11-07 10:55
本发明专利技术提供了一种基于先验知识的实体关系抽取方法、装置及存储介质,该方法包括:S1,获取行业领域的先验知识;S2,根据先验知识自动生成训练命名实体识别模型以及实体关系抽取模型所需的训练数据;S3,使用深度学习方法将先验知识融合到预训练模型,构建能实现实体关系过滤的关系抽取模型;S4,训练命名实体识别模型;S5,训练能实现关系过滤的关系抽取模型;S6,使用经训练的命名实体模型和经训练的关系抽取模型,采用Pipeline方式对文本进行实体识别和实体间关系的抽取。利用该技术方案,通过使用先验知识与预训练模型融合构建能关系过滤的实体关系抽取模型,加快了实体关系抽取的训练速度和推理速度,显著提升了模型的准确率。确率。确率。

【技术实现步骤摘要】
基于先验知识的实体关系抽取方法、装置及存储介质


[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于先验知识的实体关系抽取方法、装置及存储介质。

技术介绍

[0002]目前,自然语言处理被广泛应用到诸多行业和领域。信息抽取是自然语言处理中非常重要的一个环节。实体关系抽取作为信息抽取的重要任务,是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组<e1,r,e2>,其中e1和e2是实体,e1为头实体,e2为尾实体,r为实体e1和e2之间的关系,r属于目标关系集R{r1,r2,r3,

,ri}。关系抽取的任务是从自然语言文本中抽取出关系三元组<e1,r,e2>。
[0003]通过流水线(Pipeline)方式进行实体关系抽取将实体关系抽取分解为两个子任务:命名实体识别和关系抽取。使用现有技术常规的Pipeline方式进行实体关系抽取时,实体关系的推理成本随着文本中出现的实体个数的增长而增加,要推理的实体个数越多,推理成本越高,由此将导致关系抽取模型在训练以及推理上的耗时过长的问题。

技术实现思路

[0004]本专利技术的实施例提供了一种基于先验知识的实体关系抽取方法、装置及存储介质,通过在进行关系推理前过滤掉存在不合理实体关系的三元组或实体对来减少实体关系的推理次数和减少推理耗时。
[0005]为了实现上述目的,一方面,提供一种基于先验知识的实体关系抽取方法,包括:
[0006]S1,获取选定行业领域的资源,资源包括领域先验知识、关系类型以及语料库,其中,领域先验知识包括知识图谱或结构化三元组数据,结构化三元组数据包括头实体、尾实体和头实体与尾实体之间的实体关系;
[0007]S2,使用预先设定的规则,根据知识图谱或结构化三元组数据自动生成训练命名实体识别模型所需的BIO标注数据和训练实体关系抽取模型所需的SPO标注数据;
[0008]S3,使用深度学习方法将领域先验知识融合到选定的预训练模型,根据知识图谱或结构化三元组数据和预训练模型构建能实现实体间关系过滤的实体关系抽取模型;
[0009]S4,使用生成的BIO标注数据来训练命名实体识别模型;
[0010]S5,使用生成的SPO标注数据来训练能实现实体间关系过滤的关系抽取模型;
[0011]S6,使用经过训练的命名实体模型和经过训练的关系抽取模型,采用Pipeline的方式对文本进行实体识别和实体间关系的抽取。
[0012]优选地,所述的实体关系抽取方法,其中,步骤S3中选定的预训练模型包括BERT结构和预先选定的KGE模型,步骤S3中构建能实现关系过滤的关系抽取模型包括:
[0013]通过KGE模型获取领域先验知识中实体及实体关系的embedding;
[0014]根据实体及实体关系的embedding修改预训练模型的Bert结构,并结合修改后的
Bert结构和实体及实体关系的embedding获得实体关系抽取模型。
[0015]优选地,所述的实体关系抽取方法,其中,步骤S5中使用生成的SPO标注数据来训练实体关系抽取模型包括:
[0016]训练KGE模型,将领域先验知识中的实体及实体关系映射到低维空间;
[0017]获得用于训练的SPO标注数据中待预测的三元组与映射到低维空间的领域先验知识中的实体及实体关系的相似度;
[0018]当所获得的相似度小于预先设定的相似度阈值时,将待预测三元组中的实体对确定为存在不合理实体关系的实体对,并将该三元组过滤掉。
[0019]优选地,所述的实体关系抽取方法,其中,通过将实体及实体关系嵌入向量空间,并比较待预测三元组的实体及实体关系对应的向量与领域先验知识中的实体及实体关系对应的向量之间的距离来确定相似度;其中,当距离大于预定的距离阈值时,确定相似度小于预先设定的相似度阈值。
[0020]优选地,所述的实体关系抽取方法,其中,步骤S5还包括:
[0021]在训练关系抽取模型时,将用于训练的SPO标注数据中实体类型不可能存在需抽取的关系的实体组合过滤掉,其中,使用预先设定的判定条件来判断实体组合中实体的类型是否不可能存在需抽取的关系。
[0022]优选地,所述的实体关系抽取方法,其中,关系抽取模型实现的关系过滤包括:
[0023]将从待进行实体关系抽取的文本中获取的实体中存在不合理的实体关系的实体对、三元组或实体组合过滤掉,其中通过计算待判断的实体及实体关系与领域先验知识中已知的实体及实体关系之间的相似度并将相似度与预先设定的相似度阈值进行比较来确定待判断的实体之间是否存在不合理的实体关系,其中,当相似度小于预定的相似度阈值时确定待判断的实体之间存在不合理的实体关系。
[0024]优选地,所述的实体关系抽取方法,其中,关系抽取模型实现的关系过滤包括:
[0025]将从待进行实体关系抽取的文本中获取的实体中不可能存在需抽取的关系的实体对或实体组合过滤掉,其中,使用预先设定的判定条件来判断实体对或实体组合中实体的类型是否不可能存在需抽取的关系。
[0026]优选地,所述的实体关系抽取方法,其中,确定待判断的实体之间是否存在不合理的实体关系包括:
[0027]将待判断的实体和实体关系和领域先验知识中已知的实体和实体关系分别嵌入到向量空间;
[0028]比较待判断的实体和实体关系对应的向量与领域先验知识中已知的实体和实体间的关系对应的向量之间的距离;
[0029]当距离大于预定的距离阈值时,确定待判断的实体之间存在不合理的实体关系。
[0030]另一方面,提供了一种基于先验知识的实体关系抽取装置,包括存储器和处理器,存储器存储有至少一段程序,至少一段程序由处理器执行以实现如上文任一所述的实体关系抽取方法。
[0031]又一方面,提供了一种计算机可读存储介质,存储介质中存储有至少一段程序,至少一段程序由处理器执行以实现如上文任一所述的实体关系抽取方法。
[0032]上述技术方案具有如下技术效果:
[0033]本专利技术实施例的技术方案通过针对实体关系进行过滤,减少了需要训练或推理的实体对数量,进而减少了实体关系推理的次数,从而加快了实体关系抽取模型的训练和推理速度,同时也提升了模型的准确率。
附图说明
[0034]图1为本专利技术一实施例的基于先验知识的实体关系抽取方法的流程示意图;
[0035]图2为本专利技术一实施例的基于先验知识的实体关系抽取装置的结构示意图。
具体实施方式
[0036]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于先验知识的实体关系抽取方法,其特征在于,包括:S1,获取选定行业领域的资源,所述资源包括领域先验知识、关系类型以及语料库,其中,所述领域先验知识包括知识图谱或结构化三元组数据,所述结构化三元组数据包括头实体、尾实体和头实体与尾实体之间的实体关系;S2,使用预先设定的规则,根据所述知识图谱或结构化三元组数据自动生成训练命名实体识别模型所需的BIO标注数据和训练实体关系抽取模型所需的SPO标注数据;S3,使用深度学习方法将所述领域先验知识融合到选定的预训练模型,根据所述知识图谱或结构化三元组数据和所述预训练模型构建能实现实体间关系过滤的实体关系抽取模型;S4,使用所述生成的BIO标注数据来训练所述命名实体识别模型;S5,使用所述生成的SPO标注数据来训练所述能实现实体间关系过滤的实体关系抽取模型;S6,使用经过训练的所述命名实体模型和经过训练的所述实体关系抽取模型,采用Pipeline的方式对文本进行实体识别和实体间关系的抽取。2.根据权利要求1所述的实体关系抽取方法,其特征在于,所述步骤S3中所述选定的预训练模型包括BERT结构和预先选定的KGE模型,所述步骤S3中构建能实现关系过滤的关系抽取模型包括:通过所述KGE模型获取所述领域先验知识中实体及实体关系的embedding;根据所述实体及实体关系的embedding修改所述预训练模型的Bert结构,并结合所述修改后的Bert结构和所述实体及实体关系的embedding获得所述实体关系抽取模型。3.根据权利要求2所述的实体关系抽取方法,其特征在于,所述步骤S5中使用所述生成的SPO标注数据来训练所述实体关系抽取模型包括:训练所述KGE模型,将所述领域先验知识中的实体及实体关系映射到低维空间;获得用于训练的SPO标注数据中待预测的三元组与所述映射到低维空间的所述领域先验知识中的实体及实体关系的相似度;当所获得的相似度小于预先设定的相似度阈值时,将所述待预测三元组中的实体对确定为存在不合理实体关系的实体对,并将该三元组过滤掉。4.根据权利要求3所述的实体关系抽取方法,其特征在于,通过将实体及实体关系嵌入向量空间,并比较所述待预测三元组的实体及实体关系对应的向量与所述领...

【专利技术属性】
技术研发人员:李晓昊洪万福钱智毅
申请(专利权)人:厦门渊亭信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1