一种基于自训练的小样本知识推理方法技术

技术编号:39181492 阅读:9 留言:0更新日期:2023-10-27 08:29
本发明专利技术涉及知识图谱领域,其公开了一种基于自训练的小样本知识推理方法,解决现有方法未能有效利用任务中未标记查询样本信息的问题,提升小样本场景下知识推理的效果。本发明专利技术在推理模型的训练过程中,首先确定当前训练的目标关系,基于目标关系提取数据并构建支持集和查询集,根据查询集构建未标记样本集合,接着基于支持集对目标关系的关系元表征进行学习,根据关系元表征计算未标记样本集合中所有样本对于目标关系的置信度分数,筛选出高置信度的样本加入到支持集,并通过迭代获得最终的关系元表征,接着利用最终的关系元表征计算查询集中的所有样本关系为目标关系的置信度分数,输出最高置信度分数的样本作为推理结果,并通过梯度下降更新模型参数。并通过梯度下降更新模型参数。并通过梯度下降更新模型参数。

【技术实现步骤摘要】
一种基于自训练的小样本知识推理方法


[0001]本专利技术涉及知识图谱
,具体涉及一种基于自训练的小样本知识推理方法。

技术介绍

[0002]知识图谱是一种结构化的语义知识库,可以用来描述现实世界中的实体及其关联关系。大多数知识图谱存在关系稀疏、知识不完备问题,无法有效支撑语义搜索、智能问答等下游应用。因此,知识推理应运而生,旨在基于图谱中已有的事实推理出图谱中隐含的事实,提升知识图谱的完整性。
[0003]传统知识推理技术依赖于大量训练数据,需要为每类关系提供充足的标记三元组。然而,知识图谱中的关系遵循长尾分布,大多数关系都只拥有少量标记三元组,同时,在金融、医疗、金融等领域,获取大量标记数据十分困难。传统知识推理技术在这些场景下容易过拟合,性能受到严重限制。
[0004]为了在小样本场景下进行知识推理,现有的解决思路以元学习为主流,大致包含基于度量的元学习方法和基于优化的元学习方法两种,其中,前者方法思想简单、效果优异,但当测试任务和训练任务分布不一致时,效果不好;后者方法性能优异,且能针对新任务进行自适应调整,具有较强的泛化性和鲁棒性。
[0005]然而,现有方法都只使用了任务中的标记支持样本,忽略了任务中未标记查询样本在小样本知识推理中的作用,推理效果还有待提升。

技术实现思路

[0006]本专利技术所要解决的技术问题是:提出一种基于自训练的小样本知识推理方法,解决现有方法未能有效利用任务中未标记查询样本信息的问题,提升小样本场景下知识推理的效果。
[0007]本专利技术解决上述技术问题采用的技术方案是:
[0008]一种基于自训练的小样本知识推理方法,包括以下步骤:
[0009]首先,输入待推理的知识图谱G,所述知识图谱G的数据为三元组数据(h,r,t),其中,h表示头实体,t表示尾实体,r表示头实体h和尾实体t的关系;
[0010]然后,按如下步骤训练推理模型:
[0011]A1、随机选择知识图谱G中的一个关系,作为当前训练任务的目标关系rt;
[0012]A2、提取知识图谱G中关系为r
t
的头尾实体对,并通过类型约束,获得知识图谱G中类型与关系r
t
相适配的尾实体,构成候选尾实体集合;
[0013]将提取获得的头尾实体对,划分为正支持样本集S
r
和正查询样本集Q
r

[0014]正支持样本集S
r
包含其中的K个头尾实体对,并满足S
r
={(h
i
,t
i
)|(h
i
,r
t
,t
i
)∈G},K为预设的小样本的次数阈值;
[0015]正查询样本集包含剩余的头尾实体对,并满足Qr={(h
j
,t
j
)|(h
j
,r
t
,t
j
)∈G};
[0016]将正查询样本集Q
r
中各头尾实体对的尾实体,随机替换为候选尾实体集合中除其自身以外的其它尾实体,获得负样本查询集并满足其中,N
r
表示候选尾实体集合;
[0017]合并正查询样本集Qr和负查询样本集生成关系为r
t
的未标记样本集合
[0018]A3、利用关系元学习模型,提取正支持样本集S
r
中各头尾实体对嵌入表征,并基于各头尾实体对嵌入表征,计算获得关系r
t
的关系元表征;
[0019]A4、根据关系r
t
的关系元表征,计算未标记样本集合U
r
中所有头尾实体对关系为r
t
的置信度分数;然后,根据置信度分数,对未标记样本集合U
r
中的头尾实体对进行排序,并按预设的数量,选取置信度分数靠前的头尾实体对,组成转移集合H
r
;将转移集合H
r
从未标记样本集合U
r
中剔除,并加入到正支持样本集S
r

[0020]A5、判定是否达到预设的迭代次数或正支持样本集S
r
趋于稳定,若是,则获得最终的关系r
t
的关系元表征;否则,返回步骤A3;
[0021]A6、基于最终的关系r
t
的关系元表征,计算正查询样本集Qr和负查询样本集中的所有头尾实体对关系为r
t
的置信度分数,将置信度分数最高的头尾实体对作为推理结果;
[0022]A7、判定是否达到预设的训练轮数或结果收敛,若是,则获得完成训练的知识推理模型;否则,计算损失,对推理模型进行更新,并返回步骤A1;
[0023]最后,按如下步骤对待推理残缺三元组的尾实体进行推理:
[0024]B1、以待推理残缺三元组的关系作为目标关系r
t
,提取知识图谱G中关系为r
t
的头尾实体对,构建正支持样本集S
r
,并通过类型约束,获得知识图谱G中类型与关系r
t
相适配的尾实体,构成候选尾实体集合;基于待推理残缺三元组的头实体,遍历候选尾实体集合中的尾实体,构建未标记样本集合U
r

[0025]B2、基于完成训练的推理模型,执行步骤A3~A5,获得最终的关系r
t
的关系元表征;
[0026]B3、基于步骤B2获得的关系元表征,计算未标记样本集合U
r
中的所有头尾实体对关系为r
t
的置信度分数,将置信度分数最高的头尾实体对作为推理结果。
[0027]进一步的,步骤A3中,所述关系元学习模型,包括提取模块和融合模块;其首先,通过提取模块提取正支持样本集S
r
中各头尾实体对嵌入表征;然后,通过融合模块融合提取模块提取的各头尾实体对嵌入表征,获得关系r
t
的关系元表征。
[0028]具体的,所述提取模块,采用全连接网络,提取正支持样本集S
r
中各头尾实体对嵌入表征,公式如下:
[0029][0030]x
l
=σ(W
l
x
l
‑1+b
l
)
[0031][0032]其中,h
i
和t
i
分别表示正支持样本集S
r
中头尾实体对中的头实体和尾实体,和表示头实体h
i
和尾实体t
i
采用预训练的知识图谱嵌入模型获得的实体嵌入表示,表示向量拼接;L为全连接网络的层数,l为全连接网络中的第l层,l∈{1,......,L

1},x
l
‑1为全连
接网络中的第l

1层的输出,W本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自训练的小样本知识推理方法,其特征在于,包括以下步骤:首先,输入待推理的知识图谱G,所述知识图谱G的数据为三元组数据(h,r,t),其中,h表示头实体,t表示尾实体,r表示头实体h和尾实体t的关系;然后,按如下步骤训练推理模型:A1、随机选择知识图谱G中的一个关系,作为当前训练任务的目标关系r
t
;A2、提取知识图谱G中关系为r
t
的头尾实体对,并通过类型约束,获得知识图谱G中类型与关系r
t
相适配的尾实体,构成候选尾实体集合;将提取获得的头尾实体对,划分为正支持样本集S
r
和正查询样本集Q
r
;正支持样本集S
r
包含其中的K个头尾实体对,并满足S
r
={(h
i
,t
i
)|(h
i
,r
t
,t
i
)∈G},K为预设的小样本的次数阈值;正查询样本集包含剩余的头尾实体对,并满足Q
r
={(h
j
,t
j
)|(h
j
,r
t
,t
j
)∈G};将正查询样本集Q
r
中各头尾实体对的尾实体,随机替换为候选尾实体集合中除其自身以外的其它尾实体,获得负样本查询集并满足其中,N
r
表示候选尾实体集合;合并正查询样本集Q
r
和负查询样本集生成关系为r
t
的未标记样本集合A3、利用关系元学习模型,提取正支持样本集S
r
中各头尾实体对嵌入表征,并基于各头尾实体对嵌入表征,计算获得关系r
t
的关系元表征;A4、根据关系r
t
的关系元表征,计算未标记样本集合U
r
中所有头尾实体对关系为r
t
的置信度分数;然后,根据置信度分数,对未标记样本集合U
r
中的头尾实体对进行排序,并按预设的数量,选取置信度分数靠前的头尾实体对,组成转移集合H
r
;将转移集合H
r
从未标记样本集合U
r
中剔除,并加入到正支持样本集S
r
;A5、判定是否达到预设的迭代次数或正支持样本集S
r
趋于稳定,若是,则获得最终的关系r
t
的关系元表征;否则,返回步骤A3;A6、基于最终的关系r
t
的关系元表征,计算正查询样本集Q
r
和负查询样本集中的所有头尾实体对关系为r
t
的置信度分数,将置信度分数最高的头尾实体对作为推理结果;A7、判定是否达到预设的训练轮数或结果收敛,若是,则获得完成训练的知识推理模型;否则,计算损失,对推理模型进行更新,并返回步骤A1;最后,按如下步骤对待推理残缺三元组的尾实体进行推理:B1、以待推理残缺三元组的关系作为目标关系r
t
,提取知识图谱G中关系为r
t
的头尾实体对,构建正支持样本集S
r
,并通过类型约束,获得知识图谱G中类型与关系r
t
相适配的尾实体,构成候选尾实体集合;基于待推理残缺三元组的头实体,遍历候选尾实体集合中的尾实体,构建未标记样本集合U
r
;B2、基于完成训练的推理模型,执行步骤A3~A5,获得最终的关系r
t
的关系元表征;B3、基于步骤B2获得的关系元表征,计算未标记样本集合U
r
中的所有头尾实体对关系为r
t
的置信度分数,将置信度分数最高的头尾实体对作为推理结果。2.如权利要求1所述的一种基于自训练的小样本知识推理方法,其特征在于,步骤A3中,所述关系元学习模型,包括提取模块和融合模块;其首先,通过提取模块提
取正支持样本集S
r
中各头尾实体对嵌入表征;然后,通过融合模块融合提取模块提取的各头尾实体对嵌入表征,获得关系r
t
的关系元表征。3.如权利要求2所述的一种基于自训练的小样本知识推理方法,其特征在于,所述提取模块,采用全连接网络,提取正支持样本集S
r
中各头尾实体对嵌入表征,公式如下:x
l
=σ(W
l
x
l
‑1+b
l
)其中,h
i
和i
i
分别表示正支持样本集S
r
中头尾实体对中的头实体和尾实体,和表示头实体h
i
和尾实体t
i
采用预训练的知识图谱嵌入模型获得的实体嵌入表示,表示向量拼接;L为全连接网络的层数,l为全连接网络中的第l层,l∈{1,
……
,L

1},x
l
‑1为全连接网络中的第l

1层的输出,W
l
和b
l
分别表示全连接网络中第l层的可学习参数,σ(
·
)表示激活函数,为头尾实体对(h
i
,t
i
)的嵌入表征;所述融合模块,...

【专利技术属性】
技术研发人员:龚敬张栗粽惠孛孙明
申请(专利权)人:成都开源众智信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1