一种基于嵌入表示的同源知识图谱的扩充方法技术

技术编号:32123701 阅读:21 留言:0更新日期:2022-01-29 19:10
本发明专利技术提供一种基于嵌入表示的同源知识图谱的扩充方法。所述基于嵌入表示的同源知识图谱的扩充方法,包括以下步骤:S1将原有知识图谱初始化为嵌入向量,并利用TransE模型训练生成最终的嵌入向量,如已存在嵌入向量表示,则不必重新生成;S2将新增知识图谱初始化为嵌入向量,对于其中与原有知识图谱中完全相同的关系,使新增图谱中的该关系向量固定为原有知识图谱中的向量表示。本发明专利技术提供的基于嵌入表示的同源知识图谱的扩充方法,仅对TransE模型训练后找到的候选三元组对进行字符相似度计算,既利用到了知识图谱中的结构信息,也充分考虑了文本信息,没有简单的利用结构信息或是文本信息,而是联合两种信息来进行匹配过滤。而是联合两种信息来进行匹配过滤。而是联合两种信息来进行匹配过滤。

【技术实现步骤摘要】
一种基于嵌入表示的同源知识图谱的扩充方法


[0001]本专利技术涉及知识图谱
,尤其涉及一种基于嵌入表示的同源知识图谱的扩充方法。

技术介绍

[0002]知识图谱作为一种是由实体和关系组成的语义网络,可以为自然语言处理提供数据支持,为人工智能技术赋能,是计算机认知科学的重要研究领域。当前,知识图谱被广泛用于搜索引擎、大数据决策分析、推荐系统等众多领域。但在实际应用场景中,知识图谱的构建还是依赖于人工对数据进行处理,构建成本较高,当知识图谱构建完毕后,实际上,后续会有对其内容进行扩充的需求,特别是对于金融、网安等每月甚至每天都有更新的知识的领域,如何利用计算机技术进行知识图谱的自动化扩充是一个比较困难的问题。
[0003]单个知识图谱可以表示为:G={E,R,T},其中E为实体,R为关系,T为(头实体,关系,尾实体)三元组,平移模型(TransE)对于给定的三元组的向量表示(h,r,t),将关系r看作从头实体h到尾实体t的平移向量,即其形式化的评分函数为:E(T)=d(h+r,t)=‖h+r

t‖
L1/L2
,通过TransE模型训练可以将隐含语义关系有效编码进词向量。
[0004]利用TransE生成的向量表示,可以在一定程度上保留图谱中的结构信息,进而为知识图谱中实体的匹配提供帮助。而要对知识图谱进行有效扩充,首先要解决的问题就是去重的问题,新增知识图谱中可能有部分内容时与原始知识图谱中已有内容是高度雷同的,需要在扩充时,将其过滤掉,否则会造成信息冗余,使得知识图谱的有效性降低,传统的比较相似度的方法主要是基于文本相似度进行比较的,但这种方法要对所有实体计算文本相似度,计算量大且效果受限。
[0005]常见的对于文本生成嵌入向量的方法有对各字符向量直接求和、LSTM和N

gram等方法。其中N

gram方法是一种基于组合函数的向量表示方法。对于一个长度为l的文本序列a={c1,c2,...,c
t
},其中c
i
(i∈l)是文本中的一个字符,字符对应的向量表示为c
i
,组合函数为N是单次组合字符数n的最大值,可根据情况设置。
[0006]因此,有必要提供一种基于嵌入表示的同源知识图谱的扩充方法解决上述技术问题。

技术实现思路

[0007]本专利技术提供一种基于嵌入表示的同源知识图谱的扩充方法,解决了传统相似度比较方法计算量大且效果受限的问题。
[0008]为解决上述技术问题,本专利技术提供的基于嵌入表示的同源知识图谱的扩充方法,包括以下步骤:
[0009]S1将原有知识图谱初始化为嵌入向量,并利用TransE模型训练生成最终的嵌入向量,如已存在嵌入向量表示,则不必重新生成;
[0010]S2将新增知识图谱初始化为嵌入向量,对于其中与原有知识图谱中完全相同的关系,使新增图谱中的该关系向量固定为原有知识图谱中的向量表示,之后,同样利用TransE模型训练生成最终的嵌入向量;
[0011]S3对新增知识图谱中的每个三元组生成的嵌入向量,计算其与原有知识图谱中嵌入向量的相似度评分,并根据评分排名,提取S个候选三元组,与新增图谱中在本步骤中选择的三元组组成S个三元组对;
[0012]S4对于步骤S3生成的S个三元组对,利用N

gram算法分别计算其字符嵌入向量,并计算相似度得分;
[0013]S5联合TransE嵌入评分与字符相似度评分,设定阈值∈,如果联合评分大于阈值,则认定该三元组在原知识图谱中已存在,予以忽略,否则,将其加入原有知识图谱,达到扩充的效果。
[0014]优选的,所述步骤S1中对于原有知识图谱KG1采用Xavier初始化方法,使得初始化向量在每个维度上的取值范围为k为嵌入向量的维度,通常可取50~200,随后对于KG1中的三元组进行TransE模型训练,按照损失函数中的三元组进行TransE模型训练,按照损失函数的计算结果,迭代更新嵌入表示。
[0015]优选的,所述原有知识图谱KG1中的所有实体与关系,采用Xavier初始化方法,在均匀分布内随机采样随后,将图谱中的三元组进行TransE模型的训练,通过模型训练最小化损失函数,得到对应的嵌入向量(h
(1)
,r
(1)
,t
(1)
)。
[0016]优选的,所述步骤S2中对于新增知识图谱KG2也采用Xavier初始化方法,使得初始化向量在每个维度上的取值范围为由于KG1和KG2是同一来源的知识图谱,其中知识间的关系必然会存在相同的关系,为了使得新增知识图谱在向量空间的表示上与KG1尽可能的保持一致性,在初始化时,固定KG2中与KG1完全相同的关系的向量表示,即若r1=r2,则使得关系向量r1=r2,且这一向量在之后的训练中也固定不变,随后,与步骤S1类似地,对于KG2中的三元组进行TransE模型训练,迭代更新嵌入表示。
[0017]优选的,所述新增知识图谱KG2中的所有实体与关系,也采用Xavier初始化方法,在均匀分布内随机采样随后,将图谱中的三元组进行TransE模型的训练,对于同源知识图谱,在随后的模型训练过程中,被赋值的关系向量不再受到调整,通过模型训练最小化损失函数,就得到了对应的嵌入向量(h
(2)
,r
(2)
,t
(2)
)。
[0018]优选的,所述对于新增知识图谱KG2中第j个三元组中的待匹配实体中第j个三元组中的待匹配实体运用L1或L2范数计算与KG1中每个实体中每个实体的距离再通过sigmoid函数计算出嵌入评分再通过sigmoid函数计算出嵌入评分按照评分大小的绝对值进行排序,将候选匹配排名前S的三元
组加入,组成候选三元组对S可根据情况进行调整,一般可取S=10。
[0019]优选的,所述按照评分大小的绝对值进行排序时N=3,得到三个候选三元组对:T
group1
,T
group2
,T
group3

[0020]优选的,所述步骤S3中生成的候选三元组对中的实体的文本序列进行N

gram方法的向量表示,即对于一个长度为l的文本序列a={c1,c2,...,c
t
},字符对应的向量表示为c
i
,组合函数为M是单次组合字符数m的最大值,可根据具体应用场景设置,对于生成的文本序列的向量表示,通过计算两两的余弦相似度来得到相似度得分P
a
=cos(f(a
j
),f(a
candidate
))。
[0021]优选的,所述步骤S5中设置权重参数α、β(α+β=1),以及阈值∈,联合TransE嵌入评分与字符相似度评分,得到P
sum
=αP
t
+βP
a
...

【技术保护点】

【技术特征摘要】
1.一种基于嵌入表示的同源知识图谱的扩充方法,其特征在于,包括以下步骤:S1将原有知识图谱初始化为嵌入向量,并利用TransE模型训练生成最终的嵌入向量,如已存在嵌入向量表示,则不必重新生成;S2将新增知识图谱初始化为嵌入向量,对于其中与原有知识图谱中完全相同的关系,使新增图谱中的该关系向量固定为原有知识图谱中的向量表示,之后,同样利用TransE模型训练生成最终的嵌入向量;S3对新增知识图谱中的每个三元组生成的嵌入向量,计算其与原有知识图谱中嵌入向量的相似度评分,并根据评分排名,提取S个候选三元组,与新增图谱中在本步骤中选择的三元组组成S个三元组对;S4对于步骤S3生成的S个三元组对,利用N

gram算法分别计算其字符嵌入向量,并计算相似度得分;S5联合TransE嵌入评分与字符相似度评分,设定阈值∈,如果联合评分大于阈值,则认定该三元组在原知识图谱中已存在,予以忽略,否则,将其加入原有知识图谱,达到扩充的效果。2.根据权利要求1所述的基于嵌入表示的同源知识图谱的扩充方法,其特征在于,所述步骤S1中对于原有知识图谱KG1采用Xavier初始化方法,使得初始化向量在每个维度上的取值范围为k为嵌入向量的维度,通常可取50~200,随后对于KG1中的三元组进行TransE模型训练,按照损失函数行TransE模型训练,按照损失函数的计算结果,迭代更新嵌入表示。3.根据权利要求2所述的基于嵌入表示的同源知识图谱的扩充方法,其特征在于,所述原有知识图谱KG1中的所有实体与关系,采用Xavier初始化方法,在均匀分布内随机采样随后,将图谱中的三元组进行TransE模型的训练,通过模型训练最小化损失函数,得到对应的嵌入向量(h
(1)
,r
(1)
,t
(1)
)。4.根据权利要求3所述的基于嵌入表示的同源知识图谱的扩充方法,其特征在于,所述步骤S2中对于新增知识图谱KG2也采用Xavier初始化方法,使得初始化向量在每个维度上的取值范围为由于KG1和KG2是同一来源的知识图谱,其中知识间的关系必然会存在相同的关系,为了使得新增知识图谱在向量空间的表示上与KG1尽可能的保持一致性,在初始化时,固定KG2中与KG1完全相同的关系的向量表示,即若r1=r2,则使得关系向量r1=r2,且这一向量在之后的训练中也固定不变,随后,与步骤S1类似地,对于KG2中的三元组进行TransE模型训练,迭代更新嵌入表示。5.根据权利要求4所述的基于嵌入表示的同源知识图谱的扩充方法,其特征在于,所述新增知识图谱KG2中的所有实体与关系,也采用Xav...

【专利技术属性】
技术研发人员:郑超苏俊蒋进李默涵顾钊铨韩伟红
申请(专利权)人:中电积至海南信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1