【技术实现步骤摘要】
基于逻辑规则与关系多元编码的时序知识图谱推理方法
[0001]本专利技术涉及一种基于逻辑规则与关系多元编码的时序知识图谱推理方法,属于知识图谱构建和计算机自然语言处理
技术介绍
[0002]时序知识图谱是指在三元组知识图谱的基础上标注三元组成立的时间,获得四元组(头实体,关系,尾实体,时间戳),基于四元组构成的图结构知识,称为时序知识图谱。其中,实体可以为概念或实体,关系为实体之间的关系。时序知识图谱推理任务,是对时序知识图谱缺失的元素进行预测或推理。时序知识图谱推理能够为用户提供包含时间信息的专业领域知识或通用领域知识。
[0003]现有的时序知识图谱推理方法,主要包括基于嵌入的时序知识图谱推理方法、基于神经网络的时序知识图谱推理方法,以及基于逻辑规则的时序知识图谱推理方法。
[0004]其中,基于嵌入的时序知识推理方法,是指在基于嵌入的静态知识图谱推理基础上,引入时间信息的嵌入表示来实现时序知识图谱推理。例如,Leblay等人在文献《DerivingValidityTimeinKnowledge ...
【技术保护点】
【技术特征摘要】
1.基于逻辑规则与实体关系多元编码的时序知识图谱推理方法,其特征在于,包括以下步骤:步骤1:使用时序随机游走的方法,获得时序知识图谱上的时序规则,并计算时序规则的置信度;步骤2:对步骤1获得的时序规则进行扩充;步骤3:使用步骤2扩充后的时序规则对每个查询进行检索,得到每个查询的候选实体及其得分;步骤4:计算每种关系对应的规则特征,获得待推理目标实体的概率分布;步骤5:融合基于逻辑规则的时序知识图谱推理获得的候选实体,以及基于关系多元编码的时序知识图谱推理获得的目标实体的概率分布,对候选实体的得分进行排序。2.根据权利要求1所述的基于逻辑规则与实体关系多元编码的时序知识图谱推理方法,其特征在于,步骤1包括以下步骤:步骤1.1:学习时序知识图谱中每一种关系r的长度l的时序规则;给定关系r
h
,学习关系r
h
的长度为l的时序规则;首先,对关系r
h
的四元组进行均匀采样,获得四元组(e1,r
h
,e
l+1
,t
l+1
)并作为规则的规则头,其中,e1和e
l+1
表示实体,t
l+1
表示时间戳;以实体e
l+1
为起点,通过迭代方式对时序知识图谱中四元组进行一轮随机游走采样,其中,随机游走的长度为l,即每轮随机游走l次;每次游走从当前实体随机游走到另一实体,获得对应的四元组;对第i次游走可能得到的四元组为(e
i
,r
i
,e
i+1
,t
i+1
),这次所有可能进行随机游走的四元组集合为action(e
i
,t
i
),如式3所示:其中,1≤i≤l,e
i
为当前游走的起始实体,e
i+1
为当前游走的目标实体,G为时序知识图谱,t
i
和t
i+1
为时间戳;当i≠l时,e
i+1
为任意随机游走到达的实体,当i=l时,e
i+1
只能为e1;若无法随机游走到e1,则此次随机游走失败,开始下一轮的随机游走;然后,构建随机游走路径;若该轮随机游走的第l次游走能够达到规则头的头实体e1,则这轮随机游走是成功的,获得随机游走路径walk,如式4所示:其中,分别表示关系r
l
,r
l
‑1,...,r1的逆关系;最后,构建时序规则;利用变量代替随机游走路径walk中的实体与时间戳,第一个四元组被映射为规则头,即(X1,r
h
,X
l+1
,T
l+1
),其余四元组的逆关系被映射为规则体的原子,将l个规则体的原子(即(X1,r1‑1,X2,T1),...,(X
i
,r
i
‑1,X
i+1
,T
i
),...,(X
l
,r
l
‑1,X
l+1
,T
l
))从后往前排列,规则体的原子之间的逻辑关系是合取关系,构建时序规则rule,如式5所示:rule={(X1,r
h
,X
l+1
,T
l+1
)
←
(X1,r1,X2,T1),...,(X
i
,r
i
,X
i+1
,T
i
),...,(X
l
,r
l
,X
l+1
,T
l
)}(5)其中,X1,X2,
…
,X
l+1
表示实体变量,T1,T2,
…
,T
l+1
表示时间戳变量;
步骤1.2:计算时序规则的置信度,采用置信度来度量学习到的时序规则rule的置信度conf(r ule),该置信度的取值在区间(0,1];规则rule的置信度计算方法如式6所示:其中,规则体支持度N
body
是规则体实例化的数量,即满足规则体(X1,r1,X2,T1),...,(X
i
,r
i
,X
i+1
,T
i
),...,(X
l
,r
l
,X
l+1
,T
l
)的随机游走数量;规则支持度N
rule
是满足规则实例化的数量,即满足规则头和规则体rule={(X1,r
h
,X
l+1
,T
l+1
)
←
(X1,r1,X2,T1),...,(X
i
,r
i
,X
i+1
,T
i
),...,(X
l
,r
l
,X
l+1
,T
l
)}的随机游走数量;对于关系r,将学习到的长度为l的规则及其置信度(rule,conf(rule))加入到该关系r对应规则长度l的规则集;将所有关系对应的不同规则长度的规则集构建为整体规则集Rules。3.根据权利要求1所述的基于逻辑规则与实体关系多元编码的时序知识图谱推理方法,其特征在于,步骤2包括以下步骤:基于关系类型的时序规则扩充机制共处理四种关系类型:对称关系、互逆关系、等价关系、从属关系;其中,对于关系r,r是对称关系是指与自身的逆关系相同的关系;对于关系r和r
inv
,r和r
inv
为互逆关系是指三元组(x
’
,r1,y
’
)和三元组(y
’
,r
inv
,x
’
)都成立;r和r
equ
为等价关系是指(x
’
,r,y
’
)和三元组(x
’
,r
equ
,y
’
)都成立;r和r
sub
为从属关系是指一种关系r
sub
是关系r的子关系;x
’
、y
’
表...
【专利技术属性】
技术研发人员:张春霞,彭成,刘菲菲,高东平,郭倞涛,牛振东,朱家安,
申请(专利权)人:北京大学人民医院中国医学科学院医学信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。