关系信息抽取方法、设备及计算机可读存储介质技术

技术编号:36294782 阅读:15 留言:0更新日期:2023-01-13 10:08
本申请提供一种关系信息抽取方法、设备及计算机可读存储介质。该方法包括:获取当前应用领域的文本语料,文本语料包含至少一个句子文本;将句子文本输入关系信息抽取模型,通过关系信息抽取模型抽取句子文本包含的超关系事实,超关系事实包括关系三元组和关系三元组的限定信息。本申请的方法,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,实现了以端到端的方式执行超关系事实的抽取,避免了两阶段方法的错误传播问题,能够抽取到更多有效的超关系事实,提高了模型的召回率和性能。提高了模型的召回率和性能。提高了模型的召回率和性能。

【技术实现步骤摘要】
关系信息抽取方法、设备及计算机可读存储介质


[0001]本申请涉及计算机技术,尤其涉及一种关系信息抽取方法、设备及计算机可读存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph)是人工智能中的基础数据结构,可广泛应用于搜索引擎、社交网络和电子商务等领域。通常知识图谱中包含由头实体、关系类别和尾实体构成的关系三元组的信息。例如关系三元组(张三,受教育于,A大学)。在实际应用场景中通常还存在对关系三元组的限定信息,如(张三,受教育于,A大学)可以有时间结束于1967年、取得博士学位等限定信息。将关系三元组与其限定信息形成一个超关系事实(Hyper

Relational Fact),超关系事实可以更好地代表丰富而复杂的知识图谱结构。
[0003]关系抽取(Relation Extraction,简称RE)是从文本中提取未知关系事实的方式,是自动构建大规模知识图谱的关键环节。传统的关系抽取模型用于抽取关系三元组,并不关注关系三元组的限定信息。为了抽取超关系事实,目前采用两阶段的关系抽取方法,第一阶段利用传统关系抽取模型从句子文本中抽取关系三元组,第二阶段在根据句子文本和关系三元组抽取限定信息。
[0004]然而,两阶段的关系抽取方法容易产生错误传播,导致抽取到的超关系事实的数量减少。

技术实现思路

[0005]本申请提供一种关系信息抽取方法、设备及计算机可读存储介质,用以解决现有的两阶段的关系抽取方法容易产生错误传播,导致抽取到的超关系事实的数量减少的问题。
[0006]第一方面,本申请提供一种关系信息抽取方法,包括:
[0007]获取当前应用领域的文本语料,所述文本语料包含至少一个句子文本;
[0008]将所述句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息。
[0009]第二方面,本申请提供一种关系信息抽取方法,包括:
[0010]采集用户输入的查询文本;
[0011]基于超关系知识图谱搜索所述查询文本匹配的知识信息,向所述用户反馈所述知识信息,所述超关系知识图谱包含超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息;
[0012]将所述查询文本包含的句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实;
[0013]根据抽取到的超关系事实更新所述超关系知识图谱。
[0014]第三方面,本申请提供一种关系信息抽取方法,包括:
[0015]获取指定领域的文本语料;
[0016]根据所述文本语料,将文本语料中的句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息;
[0017]根据抽取到的超关系事实构建所述指定领域的超关系知识图谱。
[0018]第四方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现上述任一方面所述的方法。
[0019]第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一方面所述的方法。
[0020]本申请提供的关系信息抽取方法、设备及计算机可读存储介质,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,实现了以端到端的方式执行超关系事实的抽取,避免了两阶段方法的错误传播问题,能够抽取到更多有效的超关系事实,提高了模型的召回率和性能。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0022]图1为本申请所基于的一示例网络架构的示意图;
[0023]图2为本申请一示例实施例提供的关系信息抽取方法流程图;
[0024]图3为本申请另一示例实施例提供的关系信息抽取方法流程图;
[0025]图4为本申请一示例实施例提供的立方体填充的示意图;
[0026]图5为本申请一示例性实施例提供的训练关系信息抽取模型的流程图;
[0027]图6为本申请另一示例实施例提供的关系信息抽取方法流程图;
[0028]图7为本申请另一示例实施例提供的关系信息抽取方法流程图;
[0029]图8为本申请一示例实施例提供的关系信息抽取装置的结构示意图;
[0030]图9为本申请另一示例实施例提供的关系信息抽取装置的结构示意图;
[0031]图10为本申请另一示例实施例提供的关系信息抽取装置的结构示意图;
[0032]图11为本申请一示例实施例提供的电子设备的结构示意图。
[0033]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0034]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0035]首先对本申请所涉及的名词进行解释:
[0036]关系抽取(Relation Extraction,简称RE):是指从纯文本中提取未知关系事实的任务,是自动构建大规模知识图谱的关键环节。
[0037]超关系事实(Hyper

Relational Fact):包括关系三元组及关系三元组的限定信息,限定信息是对关系三元组的额外描述信息。限定信息可以包括限定类别和限定内容,限定内容可以是另一实体。限定类别可以是时间、数量、地点、部分

整体、角色等等。超关系事实可以用五元组的形式表示为(头实体,关系类别,尾实体,限定类别,限定值实体)。
[0038]超关系抽取(Hyper

Relational Extraction):是指从文本中抽取超关系事实的任务。通过联合抽取每个关系三元组和相应的限定信息来抽取文本中更丰富、更完整的超关系事实。
[0039]针对现有的两阶段关系抽取方法容易产生错误传播,导致抽取到的超关系事实的数量减少的问题,本申请提供一种关系信息抽取方法,利用端到端的关系信息抽取模型,将文本语料中的句子文本输入关系信息抽取模型,该关系信息抽取模型抽取并输出句子文本包含的超关系事实,超关系事实包括关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关系信息抽取方法,其特征在于,包括:获取当前应用领域的文本语料,所述文本语料包含至少一个句子文本;将所述句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,所述超关系事实包括关系三元组和所述关系三元组的限定信息。2.根据权利要求1所述的方法,其特征在于,所述限定信息包含限定类别和限定值实体,所述超关系事实表示为由头实体、关系类别、尾实体、限定类别和限定值实体组成的五元组。3.根据权利要求1或2所述的方法,其特征在于,还包括:根据所述超关系事实的关系三元组和关系三元组的限定信息,构建或更新超关系知识图谱,所述超关系知识图谱包含超关系事实。4.根据权利要求2所述的方法,其特征在于,所述将所述句子文本输入关系信息抽取模型,通过所述关系信息抽取模型抽取句子文本包含的超关系事实,包括:将句子文本输入关系信息抽取模型,通过所述关系信息抽取模型进行如下处理:对句子文本中的每个字进行编码,生成所述句子文本中每个字的上下文化表示;根据所述句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息;将所述句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,所述备选事实为超关系事实的备选;根据所述备选实体对的关系类别概率信息和任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,解码出句子文本包含的超关系事实。5.根据权利要求4所述的方法,其特征在于,所述根据所述句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,确定任意备选头实体和任意备选尾实体形成的备选实体对的关系类别概率信息,包括:根据所述句子文本中每个字的上下文化表示,将每个字作为备选头实体和备选尾实体,将任意备选头实体和任意备选尾实体的上下文化表示连接后输入第一前馈神经网络,得到所述任意备选头实体和任意备选尾实体形成的备选实体对的实体对表示;将所述备选实体对的实体对表示经过第二前馈神经网络和softmax层的处理,得到所述备选实体对对应于任意关系类别的概率。6.根据权利要求4所述的方法,其特征在于,所述将所述句子文本中的字作为备选限定值实体,根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息之前,还包括:将备选头实体和备选尾实体为句子文本中同一个字的备选实体对作为目标实体对,将目标实体对对应于任意关系类别的概率中的最大值,作为该字的实体概率,得到句子文本中每个字的实体概率;对句子文本中每一个字的实体概率进行排序,并根据排序结果确定预设数量的字作为参考实体,将参考实体作为备选限定值实体;根据参考实体对备选实体对进行筛选,去除包含除参考实体外的其他字的备选实体
对,保留备选头实体和备选尾实体均为参考实体的备选实体对。7.根据权利要求4或6所述的方法,其特征在于,所述根据任意备选实体对的实体对表示和任意备选限定值实体的上下文化表示,确定任意备选限定值实体与任意的备选实体对构成的备选事实的限定类别概率信息,包括:将任意备选实体对的实体对表示的转置和任意备选限定值实体的上下文化表示,经过双线性交互层和softmax层的处理,得到任意备选限定值实体与任意的备选实体对构成的备选事实对应于任意限定类别的概率。8.根据权利要求4

6中任一项所述的方法,其特征在于,所述根据所述备选实体对的关系类别概率信息和任意备选限定值实体...

【专利技术属性】
技术研发人员:谢耀赓邴立东赛赞亚
申请(专利权)人:新加坡科技设计大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1