基于规则知识增强的数据关系抽取方法及相关装置制造方法及图纸

技术编号:35219620 阅读:53 留言:0更新日期:2022-10-15 10:36
本申请提供一种基于规则知识增强的数据关系抽取方法及相关装置;该法包括:根据实例的头实体和尾实体的结构化知识图谱,确定头实体类型集和尾实体类型集,并输入图神经网络编码器,基于实例的关系得到对应的头实体原型和尾实体原型;从各实例的非结构化知识文本中确定关系描述,将该实例和该关系描述输入至文本编码器,得到实例表示和关系描述表示;通过将实例表示和关系描述表示相互作用得到上下文语义和上下文语义原型;分别构建头实体、尾实体类型和上下文语义属于关系的概率关系,据此确定交叉熵损失函数、实例级对比学习损失函数和类别级对比学习损失函数;将三者进行结合得到目标函数,并用于以对待抽取的数据集进行数据关系抽取。据关系抽取。据关系抽取。

【技术实现步骤摘要】
基于规则知识增强的数据关系抽取方法及相关装置


[0001]本申请的实施例涉及数据关系预测的
,尤其涉及一种基于规则知识增强的数据关系抽取方法及相关装置。

技术介绍

[0002]相关的数据关系抽取技术经常面临着小样本难题,数据资源不足经常会导致关系抽取模型出现关系抽取的混淆问题,具体地:因为单词重复和实体类型匹配导致的两类浅层推理混淆。
[0003]基于此,需要一种能够实现在小样本的关系抽取中,解决因单词重复和实体匹配错误而导致的浅层推理混淆的方案,以消除出现的预测混淆。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种基于规则知识增强的数据关系抽取方法及相关装置。
[0005]基于上述目的,本申请提供了基于规则知识增强的数据关系抽取方法,包括:
[0006]根据预置的支持集中各实例的头实体和尾实体的结构化知识图谱,分别确定该实例的头实体类型集和尾实体类型集,将该头实体类型集和该尾实体类型集输入预置的图神经网络编码器,并基于该实例的关系,分别得到该头实体和该尾实体对应的头实体原型和尾实体原型;
[0007]从各所述实例的非结构化知识文本中,确定该实例的关系描述,将该实例和该关系描述输入至预置的文本编码器,得到该实例的实例表示和关系描述表示;通过将该实例表示和该关系描述表示相互作用得到该实例的上下文语义和上下文语义原型;
[0008]对于各所述实例,基于所述头实体原型、所述尾实体原型和所述上下文语义原型,分别构建所述头实体、所述尾实体类型和所述上下文语义属于所述关系的概率关系,并根据所述概率关系确定交叉熵损失函数;
[0009]基于该实例的实例表示和其他实例的实例表示,确定实例级对比学习损失函数,基于所述上下文语义原型和获取的所述关系的关系描述原型,确定类别级对比学习损失函数;
[0010]结合所述交叉熵损失函数、所述实例级对比学习损失函数和所述类别级对比学习损失函数,得到目标函数,将所述目标函数用于关系抽取模型中,以对待抽取的数据集进行数据关系抽取。
[0011]进一步地,将该头实体类型集和该尾实体类型集输入预置的图神经网络编码器,并基于该实例的关系,分别得到该头实体和该尾实体对应的头实体原型和尾实体原型,包括:
[0012]将该头实体类型集中的各头实体类型和该尾实体类型中的各尾实体类型分别输入至所述图神经网络编码器,并得到如下所示的头实体类型表示和尾实体类型表示:
[0013][0014][0015]其中,f1(*)表示图神经网络编码器的映射方式;
[0016]为头实体类型表示,C
h
表示头实体类型集,c1表示C
h
中的任意类型;
[0017]为尾实体类型表示,C
t
表示尾实体类型集,c2表示C
t
中的任意类型;
[0018]分别利用所述头实体类型表示和所述尾实体类型表示,构建如下所示的所述头实体原型和所述尾实体原型:
[0019][0020][0021]其中,r表示该实例的任意关系,S
r
表示关于该关系r的实例集合,K表示S
r
中具备的实例数量;
[0022]表示所述头实体原型,e
h
表示头实体,表示所述尾实体原型,e
t
表示尾实体。
[0023]进一步地,通过将该实例表示和该关系描述表示相互作用得到该实例的上下文语义和上下文语义原型,包括:
[0024]将所述头实体和所述尾实体以向量的形式连接,得到如下所示的实体表示:
[0025][0026]其中,为所述实体表示,R表示全部所述关系对应的全部关系类型,d表示所述文本编码器的嵌入维度;
[0027]采取如下所示的第一交互方式,将该实例表示和该关系描述表示进行相互作用,得到精细化实例表示:
[0028][0029]其中,为所述细化实例表示,角标a
r
表示关于所述关系r的所述关系描述,α
j
表示多个实例权重中的第j个实例权重;为所述实例表示,为所述关系描述表示,sum(*)表示行求和函数,[j:]表示矩阵的第j行,角标T表示对矩阵执行转置的操作;
[0030]采取如下所示的第二交互方式,将该实例表示和该关系描述表示进行相互作用,得到实例感知关系描述表示:
[0031][0032]其中,为所述实例感知关系描述表示,β
j
表示多个注意权重中的第j个注意权重;
[0033]利用所述精细化实例表示和所述实例感知关系描述表示,采用如下所述的公式,确定上下文语义:
[0034][0035]其中,为所述上下文语义表示,Mul(*)表示多层感知器;
[0036]采用如下所述的公式表示所述上下文语义原型:
[0037][0038]其中,表示所述上下文语义原型。
[0039]进一步地,基于所述头实体原型、所述尾实体原型和所述上下文语义原型,分别构建所述头实体、所述尾实体类型和所述上下文语义属于所述关系的概率关系,包括:
[0040]分别利用所述头实体原型、所述尾实体原型和所述上下文语义原型,构建如下所示的所述头实体、所述尾实体类型和所述上下文语义属于所述关系的概率关系:
[0041][0042][0043]和
[0044]其中,N表示全部所述关系类型的数量,表示所述头实体类型属于所述关系r的第一概率,表示所述尾实体类型属于所述关系r的第二概率,表示所述上下文语义属于所述关系r的第三概率。
[0045]进一步地,根据所述概率关系确定交叉熵损失函数,包括:
[0046]利用所述第一概率、所述第二概率和所述第三概率,采取如下所示的公式,确定该
实例P属于关系r的综合概率:
[0047][0048]其中,p
r
表示所述综合概率;
[0049]基于所述综合概率,采取如下所示的公式,确定所述交叉熵损失函数:
[0050][0051]其中,L
CE
表示所述交叉熵损失函数,P表示所述支持集,p表示所述支持集中的任意实例。
[0052]进一步地,基于该实例的实例表示和其他实例的实例表示,确定实例级对比学习损失函数,基于所述上下文语义原型和获取的所述关系的关系描述原型,确定类别级对比学习损失函数,包括:
[0053]利用所述实例表示和用于与该实例进行对比学习的其他任意实例的实例表示,构建如下所述的实例级对比学习损失函数:
[0054][0055]其中,L
ins
表示所述实例级对比学习损失函数,τ1表示第一温度超参数;
[0056]利用所述实例感知关系描述表示,确定如下所示的所述关系r的所述实例感知关系描述原型:
[0057][0058]其中,表示所述实例感知关系描述原型;
[0059]利用所述上下文语义原型和所述所述实例感知关系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于规则知识增强的数据关系抽取方法,其特征在于,包括:根据预置的支持集中各实例的头实体和尾实体的结构化知识图谱,分别确定该实例的头实体类型集和尾实体类型集,将该头实体类型集和该尾实体类型集输入预置的图神经网络编码器,并基于该实例的关系,分别得到该头实体和该尾实体对应的头实体原型和尾实体原型;从各所述实例的非结构化知识文本中,确定该实例的关系描述,将该实例和该关系描述输入至预置的文本编码器,得到该实例的实例表示和关系描述表示;通过将该实例表示和该关系描述表示相互作用得到该实例的上下文语义和上下文语义原型;对于各所述实例,基于所述头实体原型、所述尾实体原型和所述上下文语义原型,分别构建所述头实体、所述尾实体类型和所述上下文语义属于所述关系的概率关系,并根据所述概率关系确定交叉熵损失函数;基于该实例的实例表示和其他实例的实例表示,确定实例级对比学习损失函数,基于所述上下文语义原型和获取的所述关系的关系描述原型,确定类别级对比学习损失函数;结合所述交叉熵损失函数、所述实例级对比学习损失函数和所述类别级对比学习损失函数,得到目标函数,将所述目标函数用于关系抽取模型中,以对待抽取的数据进行数据集关系抽取。2.根据权利要求1所述的方法,其特征在于,所述将该头实体类型集和该尾实体类型集输入预置的图神经网络编码器,并基于该实例的关系,分别得到该头实体和该尾实体对应的头实体原型和尾实体原型,包括:将该头实体类型集中的各头实体类型和该尾实体类型中的各尾实体类型分别输入至所述图神经网络编码器,并得到如下所示的头实体类型表示和尾实体类型表示:所示的头实体类型表示和尾实体类型表示:其中,f1(*)表示图神经网络编码器的映射方式;为头实体类型表示,C
h
表示头实体类型集,c1表示C
h
中的任意类型;为尾实体类型表示,C
t
表示尾实体类型集,c2表示C
t
中的任意类型;分别利用所述头实体类型表示和所述尾实体类型表示,构建如下所示的所述头实体原型和所述尾实体原型:型和所述尾实体原型:
其中,r表示该实例的任意关系,S
r
表示关于该关系r的实例集合,K表示S
r
中具备的实例数量;表示所述头实体原型,e
h
表示头实体,表示所述尾实体原型,e
t
表示尾实体。3.根据权利要求1所述的方法,其特征在于,所述通过将该实例表示和该关系描述表示相互作用得到该实例的上下文语义和上下文语义原型,包括:将所述头实体和所述尾实体以向量的形式连接,得到如下所示的实体表示:其中,为所述实体表示,R表示全部所述关系对应的全部关系类型,d表示所述文本编码器的嵌入维度;采取如下所示的第一交互方式,将该实例表示和该关系描述表示进行相互作用,得到精细化实例表示:其中,为所述细化实例表示,角标a
r
表示关于所述关系r的所述关系描述,α
j
表示多个实例权重中的第j个实例权重;为所述实例表示,为所述关系描述表示,sum(*)表示行求和函数,[j:]表示矩阵的第j行,角标T表示对矩阵执行转置的操作;采取如下所示的第二交互方式,将该实例表示和该关系描述表示进行相互作用,得到实例感知关系描述表示:其中,为所述实例感知关系描述表示,β
j
表示多个注意权重中的第j个注意权重;利用所述精细化实例表示和所述实例感知关系描述表示,采用如下所述的公式,确定上下文语义:其中,为所述上下文语义表示,Mul(*)表示多层感知器;采用如下所述的公式表示所述上下文语义原型:其中,表示所述上下文语义原型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述头实体原型、所述尾实体原型和所述上下文语义原型,分别构建所述头实体、所述尾实体类型和所述上下文语义属于所述关系的概率关系,包括:分别利用所述头实体原型、所述尾实体原型和所述上下文语义原型,构建如下所示的所述头实体、所述尾实体类型和所述上下文语义...

【专利技术属性】
技术研发人员:陈洪辉王梦如江苗蔡飞舒振郑建明邵太华张鑫宋城宇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1