一种基于序列编码器的时空知识图谱补全方法技术

技术编号:38235319 阅读:8 留言:0更新日期:2023-07-25 18:01
本发明专利技术公开了一种基于序列编码器的时空知识图谱补全方法。本发明专利技术属于知识图谱推理领域。本发明专利技术被运用到时空知识图谱补全任务中,主要针对海量时空RDF数据知识补全。为解决该问题,该方法包括两个步骤:时空感知关系表示和最终评分函数评估。第一阶段将时空信息分解成不同的标记,并利用LSTM获得时空感知关系的表示;第二个利用评分函数对实体和关系的表示进行更新,从而预测缺失的实体。本发明专利技术的主要用途是对时空知识图谱补全,从而使得时空知识图谱更加完整。图谱更加完整。图谱更加完整。

【技术实现步骤摘要】
一种基于序列编码器的时空知识图谱补全方法


[0001]本专利技术涉及一种时空知识图谱补全方法,特别是一种基于序列编码器的时空知识图谱补全方法。

技术介绍

[0002]近年来,大量的知识图谱不断涌现,如DBpedia,YAGO和Freebase等。这些知识图谱被建模为多关系图,其中节点表示实体,边表示两个实体之间的关系。由于知识图谱能够以结构化知识表示丰富的语义因袭,因此被应用于各种场景,包括信息提取,智能问答和推荐系统等。然而,大多数的知识图谱存在不完整性。例如,在Freebase中,超过70%的人未知其出生地点。因此,知识图谱补全,即自动预测知识图谱中缺失的实体,是一项至关重要的研究任务。
[0003]现有的知识图谱补全模型主要分为两类:静态知识图谱补全和时态知识图谱补全。具体而言,静态知识图谱中的一个事实被建模为RDF三元组,即(主语、谓语、宾语),其中主语和宾语也称为头实体和尾实体。然而,静态知识图谱补全忽略了时间信息,无法捕捉事实的时间有效性。因此,知识图谱补全任务的最新进展已扩展到更具挑战性的时态知识图谱领域。通常,时态知识图谱中的时间事实被建模为(主语、谓语、宾语、时间戳)。大部分现有的时态知识图谱补全模型将时间信息编码成关系或将时态知识图谱视为一系列快照。尽管现有的方法已经在时态知识图谱补全方面展现了一定的有效性,但它们忽略了事实的空间信息。在现实生活中,大量的实体和关系包含空间和时间信息,即事实会随着时空的变化而发生变化。例如,在空管领域中,航班A的始发地是B1,时间C1和位置(D1,D2),其中D1和D2分别表示经度和纬度。然后,该航班A的目的地是B2,时间C2和位置(D3,D4)。可以注意到,知识图谱可以随着时间和地点的变化而变化。因此,将时间和空间信息整合到知识图谱的实体和关系中具有重要意义。然而,目前关于时空知识图谱补全的研究却很少。因此,解决时空知识图谱补全具有重要的研究价值。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于序列编码器的时空知识图谱补全方法。
[0005]为了解决上述技术问题,本专利技术公开了一种基于序列编码器的时空知识图谱补全方法,包括以下步骤:
[0006]步骤1,构建时空RDF数据模型,具体如下:
[0007](s,p:<tp,lp>,o)
[0008]其中s和o为头实体和尾实体,p为关系,tp和lp为附加在关系上的时间信息和空间信息;
[0009]其中,时间信息的形式为:yyyy

mm

dd

hh

MM,表示yyyy年mm月dd日hh时MM分;
[0010]空间信息的格式为:经度,纬度,表示具体的经度值和纬度值;
[0011]当关系具有时空属性时,将时间信息和空间信息附加在关系上。
[0012]步骤2,对时空信息进行分解,得到年、月、日、时、分、经度和纬度词项,其中,时间信息分解为50个令牌,具体方法如下:
[0013]步骤2

1,对时间信息中的年份进行分解:将年份yyyy中每个字符分解为0

9,得到年词项;
[0014]步骤2

2,对时间信息中的月份进行分解:将月份mm中每个字符分解为10

19,得到月词项;
[0015]步骤2

3,对时间信息中的日期进行分解:将日期dd中每个字符分解为20

29,得到日词项;
[0016]步骤2

4,对时间信息中的时进行分解:将时hh中每个字符分解为30

39,得到时词项;
[0017]步骤2

5,对时间信息中的分进行分解:将分MM中每个字符分解为40

49,得到分词项;
[0018]步骤2

6,对空间信息进行分解:经度和纬度分别在数值上加上50作为经度词项和纬度词项。
[0019]步骤3,根据上述词项,进行时空感知的关系编码,得到时空感知关系表示,具体包括:
[0020]步骤3

1,将关系以及年、月、日、时、分、经度和纬度词项拼接为一个序列,并对齐向量进行随机初始化;
[0021]步骤3

2,利用递归神经网络对上述经过初始化的序列进行编码,得到时空感知的关系表示,具体方法包括:
[0022]将步骤3

1中经过初始化的序列输入到LSTM模型中,并采用LSTM模型的输出作为时空感知关系的嵌入特征,完成编码;其中LSTM模型的计算方法如下:
[0023]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
[0024]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
[0025][0026][0027]o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
[0028]h
t
=o
t
·
tanh(c
t
)
[0029]其中,i
t
,f
t
和o
t
分别是输入门限,遗忘门限和输出门限;W
i
,W
f
和W
o
分别是输入门限,遗忘门限和输出门限的权重参数;b
i
,b
f
和b
o
分别是输入门限,遗忘门限和输出门限的偏置参数;记忆单元c
t
根据历史记忆c
t
‑1和当前记忆更新参数;σ是sigmoid函数,tanh()是双曲正切函数;b
c
是记忆单元的偏置参数,x
t
是序列第t个数值,h
t
‑1是LSTM模型处理第t

1个数值时的隐藏状态,h
t
是LSTM模型在处理第t个数值时的隐藏状态。
[0030]步骤4,补全知识图谱:对于知识图谱中缺失项,利用时空RDF数据模型中头实体的表示、时空感知关系表示以及尾实体的表示三者之间的关系的先验知识,得到缺失项的表示,设计基于L1距离的评分函数,利用评分函数对缺失项的表示的特征进行排序,选择特征空间中L1距离最小的结果作为补全结果。
[0031]所述的补全知识图谱,具体包括:
[0032]步骤4

1,构建补全模型,用于时空知识图谱补本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于序列编码器的时空知识图谱补全方法,其特征在于,包括以下步骤:步骤1,构建时空RDF数据模型;步骤2,对时空信息进行分解,得到年、月、日、时、分、经度和纬度词项;步骤3,根据上述词项,进行时空感知的关系编码,得到时空感知关系表示;步骤4,补全知识图谱:对于知识图谱中缺失项,利用时空RDF数据模型中头实体的表示、时空感知关系表示以及尾实体的表示三者之间的关系的先验知识,得到缺失项的表示,设计基于L1距离的评分函数,利用评分函数对缺失项的表示的特征进行排序,选择特征空间中L1距离最小的结果作为补全结果。2.根据权利要求1所述的一种基于序列编码器的时空知识图谱补全方法,其特征在于,步骤1中所述的时空RDF数据模型,具体如下:(s,p:<tp,lp>,o)其中s和o为头实体和尾实体,p为关系,tp和lp为附加在关系上的时间信息和空间信息;其中,时间信息的形式为:yyyy

mm

dd

hh

MM,表示yyyy年mm月dd日hh时MM分;空间信息的格式为:经度,纬度,表示具体的经度值和纬度值;当关系具有时空属性时,将时间信息和空间信息附加在关系上。3.根据权利要求2所述的一种基于序列编码器的时空知识图谱补全方法,其特征在于,步骤2中所述的对时空信息进行分解,其中,时间信息分解为50个令牌,具体方法如下:步骤2

1,对时间信息中的年份进行分解:将年份yyyy中每个字符分解为0

9,得到年词项;步骤2

2,对时间信息中的月份进行分解:将月份mm中每个字符分解为10

19,得到月词项;步骤2

3,对时间信息中的日期进行分解:将日期dd中每个字符分解为20

29,得到日词项;步骤2

4,对时间信息中的时进行分解:将时hh中每个字符分解为30

39,得到时词项;步骤2

5,对时间信息中的分进行分解:将分MM中每个字符分解为40

49,得到分词项;步骤2

6,对空间信息进行分解:经度和纬度分别在数值上加上50作为经度词项和纬度词项。4.根据权利要求3所述的一种基于序列编码器的时空知识图谱补全方法,其特征在于,步骤3中所述的的时空感知的关系编码,具体包括:步骤3

1,将关系以及年、月、日、时、分、经度和纬度词项拼接为一个序列,并对齐向量进行随机初始化;步骤3

2,利用递归神经网络对上述经过初始化的序列进行编码,得到时空感知的关系表示。5.根据权利要求4所述的一种基于序列编码器的时空知识图谱补全方法,其特征在于,步骤3

2中所述的利用递归神经网络对上述经过初始化的序列进行编码,具体方法包括:将步骤3

1中经过初始化的序列输入到LSTM模型中,并采用LSTM模型的输出作为时空感知关系的嵌入特征,完成编码;其中LSTM模型的计算方法如下:i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
))o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)...

【专利技术属性】
技术研发人员:贾玮马宗民汤闻易丁辉张阳
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1