一种基于实体属性的知识图谱事实补全方法技术

技术编号:31496904 阅读:22 留言:0更新日期:2021-12-18 12:39
本发明专利技术涉及一种基于实体属性的知识图谱事实补全方法,目的是提高知识图谱事实预测的平均精度均值,补全更可靠的事实。技术方案是:构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱,数据预处理模块准备训练数据、验证数据和补全数据。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成,使用训练数据和验证数据对网络进行训练和验证;训练好的事实预测网络对补全数据进行预测得到预测结果,事实补全模块根据预测结果将知识图谱补全。采用本发明专利技术可提升事实预测网络预测的平均精度均值,使得补全到知识图谱中的事实可信度更高。更高。更高。

【技术实现步骤摘要】
一种基于实体属性的知识图谱事实补全方法


[0001]本专利技术涉及知识图谱补全领域,具体涉及一种基于实体属性的对知识图谱进行事实补全的方法。

技术介绍

[0002]知识图谱是结构化的语义知识库,能够记录世界中的实体及其之间的关系,为海量数据的存储提供了一种较好的组织和管理手段,比如DBpedia、YAGO、Freebase、NELL等著名的开源知识图谱。知识图谱是人工智能领域的重要研究内容之一,目前已经在搜索引擎、智能对话、用户推荐等众多领域得到了广泛的实际应用,渗透到了金融、医疗、教育等众多行业。
[0003]知识图谱中存储的一个事实通常可以表示为一个三元组的形式,即(头实体,关系,尾实体),其中头实体和尾实体分别对应知识图谱中的两个节点,关系对应连接这两个节点的边。但是由于知识图谱存储的事实通常是从互联网上海量、异构、动态的数据资源中自动挖掘出来的,而这些数据无法包含所有事实,因此构建的知识图谱通常是不完整的。知识图谱中缺失的事实给实际应用带来了很多挑战,比如由于事实的不完整加大了推理的难度,降低了应用的覆盖性和准确性,导致给用户的推荐不精准、智能搜索的答案不全面等问题。因此,兴起了知识图谱补全任务,即基于现有知识图谱中的事实补全缺失事实。根据知识图谱中的元素可以将知识图谱补全分为事实预测(factprediction)、关系预测(relationprediction)、链接预测(linkprediction)三个子任务。事实预测,即为给定头实体、关系和尾实体,预测(头实体,关系,尾实体)是否成立;关系预测,即为给定头实体和尾实体,预测他们之间存在的关系;链接预测,即为给定关系和一个头实体(尾实体),预测该实体通过该关系链接的尾实体(头实体)。使用这三种子任务中的任一种都可以对知识图谱中缺失的事实进行补全。
[0004]进行知识图谱事实预测的方法中,基于路径的方法一般抽取三元组(头实体,关系,尾实体)中头实体和尾实体之间的路径并提取路径特征(路径表示),然后通过建立路径特征与关系的联系,判断头实体和尾实体之间是否存在该关系,如果存在则将该三元组看作缺失的事实并补全。该方法具有较强的可解释性,并且对路径信息的学习可以同时考虑实体和关系,并能建模他们之间存在的显式及隐式的模式。
[0005]在基于路径的知识图谱补全方法中,如何利用实体间路径的信息进行预测是一个重要研究点。现有的方法着重研究如何使用路径上实体和关系的信息获取路径的特征,以此提高路径表示的准确性,从而提升根据路径信息判断实体间关系的平均精度均值(MeanAveragePrecision)。
[0006]由于知识库中实体数量较大,因此直接使用实体本身会导致模型学习的路径表示较为稀疏,这能够拉大不同路径的差异性,易于区分不同的路径(判别性好)。但是这会导致模型难以提取相似路径之间的共同特征,因此很难将从一些路径中学到的知识用于指导相似路径进行相似的推理(泛化性差),导致预测的平均精度均值低。为了在保持模型判别能
力的同时提高泛化能力,以提升模型预测的平均精度均值,现有的方法致力于使用实体的类型信息代替实体本身去学习路径的表示。这是因为不同的实体一般具有不同的类型信息,且实体的类型信息可以表示实体在路径中所表示的语义,因此实体的类型兼具判别性和泛化性,从而可以提升模型预测的平均精确度。
[0007]然而,如何提升模型预测的平均精度均值,补全更可信的知识还存在很多挑战。第一,并不是知识图谱中的所有实体都能获得对应的实体类型,而且获得的实体类型也许只能部分地刻画实体信息,导致实体的信息表达不够全面,提取的路径特征不够准确,影响预测的平均精度均值。第二,实体与不同关系相连时一般会表达不同的语义(对应不同的类型),实体的不同类型具有不同的抽象层次,因此如何准确选择路径中能够代表实体所表达语义并且具有合适的抽象层次的实体类型是一个难点。选择代表实体所表达语义的类型才会使得提取的路径特征准确,选择抽象层次合适的类型才会使得路径的特征兼具判别性和泛化性(选择语义更抽象的类型,则模型的泛化性更好;选择语义更具体的类型,则模型的判别性更好),从而才能提升模型根据提取的路径特征预测实体间关系的精确度。

技术实现思路

[0008]本专利技术要解决的技术问题是:针对路径中实体语义信息不全面以及实体语义信息选择难度大,导致路径特征提取不够准确的问题,提出一种基于实体属性的知识图谱事实补全方法。该方法将知识图谱中与实体相连的关系作为该实体除了实体类型之外的另一种语义信息:实体属性,并同时捕获正反向路径序列上实体表达的语义所对应的属性信息和类型信息作为实体的语义信息,从而更全面更准确的提取路径的特征,提高知识图谱事实预测的平均精度均值,补全更可靠的事实。
[0009]为解决上述技术问题,本专利技术的技术方案是:构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱(包含实体集合、关系集合、以及事实集合),数据预处理模块准备训练数据(训练样本的数据集合和训练样本的标签集合)、验证数据(验证样本的数据集合和验证样本的标签集合)、以及补全数据(补全样本的数据集合),输出给事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成。事实预测网络使用数据预处理模块输出的训练数据采用Adam方法进行训练,得到网络权重参数,事实预测网络使用数据预处理模块输出的验证数据进行验证,保存最优的网络权重参数。训练好的事实预测网络对数据预处理模块输出的补全数据进行预测,得到补全样本的预测概率集合,事实补全模块根据预测概率集合判断是否需要将补全样本补全到知识图谱中。
[0010]本专利技术主要包括以下步骤:
[0011]第一步:构建基于路径的知识图谱事实补全系统。该系统由数据预处理模块、事实预测网络、事实补全模块构成。
[0012]数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合),输出给事实预测网络,并将补全样本的数据集合输出给事实补全模
块。数据预处理模块由路径抽取函数f
ExtractPath
和路径预处理函数f
PreprocessPaths
构成,其中f
ExtractPath
从知识图谱中抽取每个样本的实体之间的路径信息,f
PreprocessPaths
将每个样本的实体间路径信息处理为事实预测网络需要的数据结构。将知识图谱中的实体集合、关系集合、事实集合分别记为E={e
i
},R={r
j
}和将实体的属性集合记为A={a
v
},将实体的类型集合记为L={l
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实体属性的知识图谱事实补全方法,其特征在于包括以下步骤:第一步:构建基于路径的知识图谱事实补全系统,该系统由数据预处理模块、事实预测网络、事实补全模块构成;数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据即训练样本的数据集合和训练样本的标签集合、验证事实预测网络所需的验证数据即验证样本的数据集合和验证样本的标签集合、以及事实补全模块所需的要判断是否为缺失事实的补全数据即补全样本的数据集合,输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块;数据预处理模块由路径抽取函数f
ExtractPath
和路径预处理函数f
PreprocessPaths
构成,其中f
ExtractPath
从知识图谱中抽取每个样本的实体之间的路径信息,f
preprocessPaths
将每个样本的实体间路径信息处理为事实预测网络需要的数据结构;将知识图谱中的实体集合、关系集合、事实集合分别记为E={e
i
},R={r
j
}和将实体的属性集合记为A={a
v
},将实体的类型集合记为L={l
o
},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数;将r

j
记为r
j
的反关系,表示若则根据E、R、F、A、L,数据预处理模块获取训练样本集合S
*
、训练样本的标签集合Y
*
、验证样本集合S
#
、验证样本的标签集合Y
#
、以及补全样本集合U;对于S
*
、S
#
、U中的每个样本,数据预处理模块先使用f
ExtractPath
从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用f
PreprocessPaths
处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合;事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成;其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵W
r
、实体属性的嵌入矩阵W
A
、实体类型的嵌入矩阵W
L
;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTM
r
;实体编码器用于提取每条路径的实体序列特征即每条路径上实体的属性信息序列的特征和类型信息序列的特征,由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层构成,实体类型注意力网络由4个全连接层构成,而实体序列编码网络由两个LSTM网络即LSTM
A
和LSTM
L
及4个全连接层构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层f
p
和构成,反向路径注意力网络由2个全连接层f

p
和构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率;事实预测网络从数据预处理模块得到包含训练样本的数据集合、验证样本的数据集合、补全样本的数据集合的样本数据集合,提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合的预测概率集合;事实预测网络
根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数;如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块;事实补全模块与数据预处理模块和事实预测网络相连;事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本添加到知识图谱的事实集合中,得到补全后的知识图谱的事实集合F
new
;第二步:数据预处理模块根据用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典D
L
,以及需要补全的查询关系集合R
Q
,准备训练事实预测网络所需的训练数据、验证事实预测网络所需的验证数据、以及事实补全模块所需的要判断是否为缺失事实的补全数据;方法是:2.1数据预处理模块接收用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典D
L
,以及需要补全的查询关系集合R
Q
,R
Q
={r
q
|r
q
∈R},1≤q≤Q,Q为R
Q
中元素的个数;需要补全的知识图谱包括实体集合E、关系集合R、事实集合F,字典D
L
中的key为实体,value为实体对应的类型集合;2.2数据预处理模块使用路径抽取函数f
ExtractPath
和路径预处理函数f
PreprocessPaths
准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,方法是:2.2.1令存储所有训练样本的集合存储所有训练样本的标签集合存储所有训练样本的所有正向路径的关系序列的集合存储所有训练样本的所有反向路径的关系序列的集合存储所有训练样本的所有正向路径的实体属性信息序列集合存储所有训练样本的所有正向路径的实体类型信息序列集合存储所有训练样本的所有反向路径的实体属性信息序列集合存储所有训练样本的所有反向路径的实体类型信息序列集合2.2.2令存储所有验证样本的集合存储所有验证样本的标签集合存储所有验证样本的所有正向路径的关系序列的集合存储所有验证样本的所有反向路径的关系序列的集合存储所有验证样本的所有正向路径的实体属性信息序列集合存储所有验证样本的所有正向路径的实体类型信息序列集合存储所有验证样本的所有反向路径的实体属性信息序列集合存储所有验证样本的所有反向路径的实体类型信息序列集合2.2.3令q=1;2.2.4如果q≤Q,转2.2.5,否则说明全部样本数据均已经处理,转2.2.18;
2.2.5设置负样本数目与正样本数目的比值为K
N|P
,K
N|P
为正整数;设置样本数量阈值为K
q
,K
q
为正整数,,其中表示以r
q
为关系的事实,即为关系的事实,即为关系的事实,即表示集合的元素数目;令查询关系r
q
的样本集合为令查询关系r
q
的样本标签集合为令查询关系r
q
下所有样本的所有正向路径的关系序列的集合查询关系r
q
下所有样本的所有反向路径的关系序列的集合查询关系r
q
下所有样本的所有正向路径的实体属性信息序列集合查询关系r
q
下所有样本的所有正向路径的实体类型信息序列集合查询关系r
q
下所有样本的所有反向路径的实体属性信息序列集合查询关系r
q
下所有样本的所有反向路径的实体类型信息序列集合2.2.6令k=1;2.2.7如果k≤K
q
,转2.2.8,否则说明查询关系r
q
下的所有样本的数据已经获取,转2.2.14;2.2.8随机从实体集合E中选择两个实体和即即构造样本s
k
,且若则s
k
为正样本,令s
k
的标签y
k
=1,若则s
k
为负样本,令s
k
的标签y
k
=0;2.2.9令s
k
的所有正向路径的关系序列的集合s
k
的所有反向路径的关系序列的集合s
k
的所有正向路径的实体属性信息序列集合s
k
的所有正向路径的实体类型信息序列集合s
k
的所有反向路径的实体属性信息序列集合s
k
的所有反向路径的实体类型信息序列集合2.2.10 f
ExtractPath
采用随机游走方法抽取样本s
k
的实体到实体的N条正向路径,放到s
k
的正向路径集合中,其中第n条路径p
n
由实体和关系交替构成,M为路径p
n
的长度,实体为路径p
n
上第t步的实体,r
t
∈R,1≤t≤M为路径p
n
上第t步的关系;2.2.11 f
PreprocessPaths
将样本s
k
的正向路径集合处理为事实预测网络需要的数据结构,得到样本s
k
的查询关系r
q
、反向查询关系r

q
,样本s
k
的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合其中:其中:为正向关系序列,
为反向关系序列,为反向关系序列,r

t
是p
n
的反向路径p

n
上的关系,上的关系,上的关系,为正向实体序列上获得的所有实体的属性信息,所有实体的属性信息,为为上的第t步实体e
t
的属性集合,|A
t
|为A
t
中属性的个数;中属性的个数;为上获得的所有实体的类型信息记,上获得的所有实体的类型信息记,L
t
为e
t
的类型集合;的类型集合;为反向实体序列上所有实体的属性信息,为的逆序,即的逆序,即的逆序,即为上所有实体的类型信息,为的逆序,即2.2.12将样本s
k
和s
k
的标签分别加入样本集合S
q
和样本的标签集合Y
q
中,即令S
q
=S
q
∪{s
k
},令Y
q
=Y
q
∪{y
k
};令};令2.2.13令k=k+1,转2.2.7;2.2.14此时查询关系r
q
下所有样本为S
q
={s1,...,s
k
,...,s
K
},查询关系r
q
下所有样本的标签集合为Y
q
={y1,...,y
k
,...,y
K
},查询关系r
q
下所有样本的所有正向路径的关系序列的集合查询关系r
q
下所有样本的所有反向路径的关系序列的集合下所有样本的所有反向路径的关系序列的集合查询关系r
q
下所有样本的所有正向路径的实体属性信息序列集合下所有样本的所有正向路径的实体属性信息序列集合查询关系r
q
下所有样本的所有正向路径的实体类型信息序列集合下所有样本的所有正向路径的实体类型信息序列集合查询关系r
q
下所有样本的所有反向路径的实体属性信息序列集合下所有样本的所有反向路径的实体属性信息序列集合查询关系r
q
下所有样本的所有反向路径的实体类型信息序列集合合将S
q
、Y
q
、按照a∶c的比例分为查询关系r
q
下的训练数据S
q*
、Y
q*
、和验证数据S
q#
、Y
q#
、、a和c为正数,a>c,且a+c=10;2.2.15将查询关系r
q
下的所有训练数据作为元素加入总的训练数据中,即令S
*
=S
*
∪{S
q*
},Y
*
=Y
*
U{Y
q*
},},2.2.16将查询关系r
q
下的所有验证数据作为元素加入总的验证数据中,即令S
#
=S
#

{S
q#
},Y
#
=Y
#
U{Y
q#
},},2.2.17令q=q+1,转2.2.4;2.2.18此时所有训练样本的标签集合为Y
*
={Y1,...,Y
q
,...,Y
Q
},所有的训练样本的集合为S
*
={S
1*
,...,S
q*
,...,S
Q*
},所有训练样本的所有正向路径的关系序列的集合},所有训练样本的所有正向路径的关系序列的集合所有训练样本的所有反向路径的关系序列的集合所有训练样本的所有反向路径的关系序列的集合所有训练样本的所有正向路径的实体属性信息序列集合所有训练样本的所有正向路径的实体属性信息序列集合所有训练样本的所有正向路径的实体类型信息序列集合所有训练样本的所有正向路径的实体类型信息序列集合所有训练样本的所有反向路径的实体属性信息序列集合所有训练样本的所有反向路径的实体属性信息序列集合所有训练样本的所有反向路径的实体类型信息序列集合所有训练样本的所有反向路径的实体类型信息序列集合S
*
、构成所有训练样本的数据集合;所有验证样本的标签集合为Y
#
={Y
1#
,...,Y
q#
,...,Y
Q#
},所有的验证样本的集合为S
#
={S
1#
,...,S
q#
,...,S
Q#
},所有验证样本的所有正向路径的关系序列的集合},所有验证样本的所有正向路径的关系序列的集合所有验证样本的所有反向路径的关系序列的集合所有验证样本的所有反向路径的关系序列的集合所有验证样本的所有正向路径的实体属性信息序列集合所有验证样本的所有正向路径的实体属性信息序列集合所有验证样本的所有正向路径的实体类型信息序列集合所有验证样本的所有正向路径的实体类型信息序列集合所有验证样本的所有反向路径的实体属性信息序列集合所有验证样本的所有反向路径的实体属性信息序列集合所有验证样本的所有反向路径的实体类型信息序列集合所有验证样本的所有反向路径的实体类型信息序列集合S
#
、构成所有验证样本的数据集合,转2.3;2.3数据预处理模块使用f
ExtractPath
和f
PreprocessPaths
准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,包括所有补全样本的集合U={U1,...,U
q
,...,U
Q
},所有补全样本的所有正向路径的关系序列的集合所有补全样本的所有反向路径的关系序列的集合所有补全样本的所有正向路径的实体属性信息序列集合所有补全样本的所有正向路径的实体类型信息序列集合所有补全样本的所有反向路径的实体属性信息序列集合所有补全样本的所有反向路径的实体类型信息序列集合U
q
为查询关系r
q
下所有补全样本,下所有补全样本,|U
q
|为U
q
中元素的个数,即
查询关系r
q
下的补全样本的总数;为查询关系r
q
下所有补全样本的所有正向路径的关系序列的集合,序列的集合,序列的集合,为查询关系r
q
下所有补全样本的所有反向路径的关系序列的集合查询关系r
q
下所有补全样本的所有正向路径的实体属性信息序列集合查询关系r
q
下所有补全样本的所有正向路径的实体类型信息序列集合查询关系r
q
下所有补全样本的所有反向路径的实体属性信息序列集合查询关系r
q
下所有补全样本的所有反向路径的实体类型信息序列集合2.4将步骤2.2得到的S
*
、输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y
*
输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S
#
、输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y
#
输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、U
r
、U

r
、U
A
、U
L
、U

A
、U

L
输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块;第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数;具体方法如下:3.1令q=1;3.2如果q≤Q,则转步骤3.3,否则说明所有查询关系的事实预测网络均已训练结束,得到了Q个训练好的事实预测网络,即转步骤3.8;3.3初始化查询关系r
q
对应的事实预测网络的权重参数;3.4设置的训练参数:包括设置学习率learningRate、一阶矩估计的指数衰减率β1、二阶矩估计的指数衰减率β2,防止除以零的参数∈,批数据尺寸batchsize;3.5从S
*
、Y
*
、中取出关于查询关系r
q
的训练数据S
q*
、Y
q*
、从S
#
、Y
#
、中取出关于查询关系r
q
的验证数据S
q#
、Y
q#
、3.6迭代计算事实预测网络输出的预测概率与真实标签之间的差距,最小化损失并更新网络的参数,直到满足迭代次数要求,得到权重参数;具体方法如下:3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系r
q
的验证数据进行预测的平均精确度的值AP
q#
=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2如果epoch≤迭代阈值EpochNum,转3.6.2.1,否则说明查询关系r
q
的事实预测网络已经满足迭代次数要求,训练结束,转3.7;3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;3.6.2.2如果转3.6.2.2.1,其中|S
q*
|为训练样本集合S
q*
的样本数目,否则说明S
q*
中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据S
q#
上的预测结果;3.6.2.2.1事实预测网络的嵌入层从S
q*
中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合S
q*,b
={s1,...,s
c
,...,s
C
},1≤c≤C,其中C=min(batchsize,|S
q*
|

processednum),表示取batchsize和|S
q*
|

processednum中的最小值;从Y
q*
、中取出与S
q*,b
的这C个样本对应的数据,分别记为标签训练批次集合Y
q*,b
={y1,...,y
c
,...,y
C
},正向路径关系序列训练批次集合向路径关系序列训练批次集合反向路径关系序列训练批次集合正向路径实体属性信息序列训练批次集合和正向路径实体类型信息序列训练批次集合反向路径实体属性信息序列训练批次集合反向路径实体属性信息序列训练批次集合和反向路径实体类型信息序列训练批次集合3.6.2.2.2采用事实预测网络预测方法f
predict
,对第b个batch的数据,对第b个batch的数据和查询关系r
q
、查询关系的反关系r

q
进行计算,得到第b个batch的数据的预测概率集合其中是该批次数据中样本s
c
的预测概率,具体为:3.6.2.2.2.1事实预测网络的嵌入层读取r
q
、r

q
,以及使用关系的嵌入矩阵W
r
、实体属性的嵌入矩阵W
A
、实体类型的嵌入矩阵W
L
分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到r
q
、r

q
、、分别对应的向量形式即批次数据的查询关系的嵌入反向查询关系的嵌入正向路径的关系序列的嵌入反向路径的关系序列的嵌入正向路径的实体属性序列的嵌入正向路径的实体类型序列的嵌入反向路径的实体属性序列的嵌入反向路径的实体类型序列的嵌入将发送给关系编码器和实体编码器;3.6.2.2.2.2关系编码器从嵌入层接收和计算该批次数据的所有正向路径的
关系表示和所有反向路径的关系表示将和传给实体编码器和路径编码器;3.6.2.2.2.3实体编码器提取每条路径的实体特征;实体编码器从嵌入层接收3.6.2.2.2.3实体编码器提取每条路径的实体特征;实体编码器从嵌入层接收从关系编码器接收和计算所有正向路径的实体表示和所有反向路径的实体表示将和传给路径编码器;3.6.2.2.2.4路径编码器从关系编码器接收和从实体编码器接收和分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示,得到所有样本的正向路径表示和所有样本的反向路径表示将和传输给预测器;3.6.2.2.2.5预测器从路径编码器接收和计算该批数据中所有样本的预测概率,方法为:3.6.2.2.2.5.1将输入到全连接层f1中,将输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示维度为C
×
600,其中该批数据中每个样本的路径表示维度为600;3.6.2.2.2.5.2将输入到全连接层f3中,然后将f3的输出经过ReLU函数激活后输入到全连接层f4中,得到所有样本的路径的新表示3.6.2.2.2.5.3将输入sigmoid函数中,得到该批次所有数据的预测概率集合输入sigmoid函数中,得到该批次所有数据的预测概率集合输入sigmoid函数中,得到该批次所有数据的预测概率集合是该批次数据中样本s
c
的预测概率,转3.6.2.2.3;3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Y
q*,b
和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合计算该批次数据S
q*,b
的损失值loss;方法如下式,其中表示该批次数据中查询关系r
q
的正样本集合,表示该批次数据中查询关系r
q
的正样本集合和负样本集合,如果S
q*,b
中的样本s
c
的标签y
c
=1,则样本否则否则否则3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中W
r
、W
A
、W
L
、LSTM
r
、LSTM
A
和LSTM
L
的参数和20个全连接层的权重矩阵和偏置向量都得
到一次更新;3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2;3.6.2.3令批处理次数b=1,令已预测的验证样本数目predictednum=0,令验证样本的预测概率集合3.6.2.4如果转3.6.2.4.1,其中|S
q#
|为验证样本集合S
q#
的样本数目,否则说明已经对S
q#
中的所有验证样本进行预测,转3.6.2.5;3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的S
q#
中读取C
#
个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合1≤c
#
≤C
#
,其中C
#
=min(batchsize,|S
q#
|

predictednum);从步骤3.5得到的Y
q#
、、中取出与S
q#,b
的这C
#
个样本对应的数据,分别记为标签验证批次集合正向路径关系序列验证批次集合反向路径关系序列验证批次集合正向路径实体属性信息序列验证批次集合和正向路径实体类型信息序列验证批次集合息序列验证批次集合反向路径实体属性信息序列验证批次集合和反向路径实体类型信息序列验证批次集合3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法f
predict
,对第b个batch的验证数据和查询关系r
q
、查询关系的反关系r

q
进行计算,得到第b个batch的验证数据的预测概率集合即其中是该批次数据中样本的预测概率;将加入中,即令3.6.2.4.3令predictednum=predictednum+C
#
,b=b+1,转3.6.2.4;3.6.2.5使用验证数据集合S
q#
的标签集合Y
q#
和事实预测网络的预测概率集合计算事实预测网络对验证数据进行预测的平均精确度,记为若则令则令并保存事实预测网络的参数,转3.6.2.6;若则直接转3.6.2.6。;3.6.2.6令epoch=epoch+1,转3.6.2;3.7令q=q+1,转3.2;3.8计算该基于路径的知识图谱补全系统进行事实预测的平均精度均值MAP,3.8计算该基于路径的知识图谱补全系统进行事实预测的平均精度均值MAP,转第四步;第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,方法是:
4.1事实补全模块从数据预处理模块接收补全样本的数据集合,包括U、U
r
、U

r
、U
A
、U
L
、U

A
、U

L
,令补全样本集合U对应的所有补全样本的预测概率集合4.2令q=1;4.3如果q≤Q,转4.3.1预测查询关系r
q
下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4;4.3.1从R
Q
中取出查询关系r
q
,根据r
q
选择第三步中训练好的事实预测网络4.3.2从U、U
r
、U

r
、U
A
、U
L
、U

A
、U

L
中取出关于查询关系r
q
的补全数据U
q
、、4.3.3令U
q
对应的补全样本的预测概率集合为4.3.4使用训练好的事实预测网络预测U
q
中所有样本属于事实的概率,得到U
q
中所有样本属于事实的预测概率集合Z
q
,方法是:4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;4.3.4.2如果转4.3.4.2.1对U
q
中第b个batch的补全数据进行预测,否则说明已经对U
q
中的所有补全样本进行预测,转4.3.5;4.3.4.2.1事实预测网络的嵌入层从U
q
读取C
u
个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合其中C
u
=min(batchsize,|U
q
|

predictednum);从中取出与U
q,b
的这C
u
个样本对应的数据,分别记为正向路径关系序列补全批次集合反向路径关系序列补全批次集合正向路径实体属性信息序列补全批次集合和正向路径实体类型信息序列补全批次集合息序列补全批次集合反向路径实体属性信息序列补全批次集合和反向路径实体类型信息序列补全批次集合4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法f
predict
,对第b个batch的补全数据和查询关系r
q
、查询关系的反关系r

q
进行计算,得到第b个batch经过训练好的事实预测网络预测得到的补全数据的预测概率集合合其中是该批次数据中样本的预测概率;4.3.4.2.3事实补全模块从事实预测网络接收批次数据的预测概率集合将加入到r
q
下的补全样本的预测概率集合Z
q
中,即令4.3.4.2.4令predictednum=predictednum+C
u
,b=b+1,转4.3.4.2;
4.3.5将Z
q
作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Z
q
};4.3.6令q=q+1,转4.3;4.4根据U的预测概率集合Z,Z={Z1,...,Z
q
,...,Z
Q
},判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:4.4.1将补全后的知识图谱的事实集合记为F
new
,令F
new
=F;4.4.2设置阈值δ,令q=1;4.4.3如果q≤Q,则转4.4.4补全查询关系r
q
下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5;4.4.4令w=1;4.4.5如果w≤|U
q
|,则转4.4.6判断补全样本u
w
是否为缺失事实,否则说明查询关系r
q
下的缺失事实均已补全,转4.4.8;4.4.6U
q
中第w个样本u
w
代表三元组u
w
的预测概率为Z
q
中的第w个预测概率z
w
,若预测概率z
w
≥δ,则在用户提供的知识图谱中将实体和使用r
q
连接,即将添加到事实集合F
new
中,4.4.7令w=w+1,转4.4.5;4.4.8令q=q+1,转4.4.3;4.5将用户提供的知识图谱中的事实集合F更新为F
new
,即完成了对用户提供的知识图谱的补全。2.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于所述事实预测网络中嵌入层、关系编码器、实体编码器、路径编码器、预测器的功能和输入输出关系为:嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用W
r
、W
A
、W
L
转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示也输出给实体编码器;关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路...

【专利技术属性】
技术研发人员:黄震王艺霖李东升郭敏杨东杨森孙鼎
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1