一种基于Mf_SimplE的知识图谱表示学习方法技术

技术编号:32461881 阅读:20 留言:0更新日期:2022-02-26 08:52
本发明专利技术公开了一种基于MfSimplE的知识图谱表示学习方法,涉及互联网技术领域,具体为一种基于MfSimplE的知识图谱表示学习方法,具体包括如下步骤:S1、对知识图谱中的三元组进行预处理生成负三元组:读取知识图谱数据中的一批三元组S,对于S中任意的三元组(e1,r,e2),如果选择头部节点,则从实体集E中随机选择除e1以外的节点来替换e1组成新的负三元组,以同样的方式也可以通过替换尾结点来得到负三元组;S2、随机初始化实体节点和关系向量。本发明专利技术改进了传统方法在较复杂的知识图谱中解决一对多、多对一类型的关系不够好的问题,在没有明显增加时间复杂度的基础上相较于别的轻量级模型的精确度却有很大的提高。级模型的精确度却有很大的提高。级模型的精确度却有很大的提高。

【技术实现步骤摘要】
一种基于Mf_SimplE的知识图谱表示学习方法


[0001]本专利技术涉及互联网
,尤其涉及一种基于Mf_SimplE的知识图谱表示学习方法

技术介绍

[0002]随着互联网技术的高速发展,数据的来源渠道越来越广,每年数据量都在呈指数级别增长。各种各样的信息通过不同的途径被呈现在人们面前,使得数据的获取也越来越方便,人们的需求从快速获取信息转换为快速定位高质量有效信息,真正通过数据来驱动某一领域发展的关键点也并非是该领域内数据信息的体量而是通过数据挖掘问题本质和规律。基于此背景,知识图谱便由于其强大的信息处理效率和知识组织能力,逐渐进入研究人员视野中,受到人们更为广泛的关注。知识表示学习将知识图谱中的实体和关系映射到连续稠密的低维向量空间,将不同来源的实体和关系映射到同一语义空间中,有效地解决了数据稀疏问题,有助于提高计算效率,同时能够充分利用对象间的语义信息,能有效缓解数据稀疏问题,从而高效地实现语义相似度计算等任务,并显著提升计算效率。

技术实现思路

[0003]本专利技术提出的基于Mf_SimplE的知识图谱表示学习方法针对现有知识图谱表示学习模型存在的不足,基于关系转换推理和多重特征提取,改进了传统方法在较复杂的知识图谱中解决一对多、多对一类型的关系不够好的问题。
[0004]本专利技术所要解决的技术问题在于提供了一种基于Mf_SimplE的知识图谱表示学习方法,具体包括如下步骤:
[0005]S1、对知识图谱中的三元组进行预处理生成负三元组:读取知识图谱数据中的一批三元组S,对于S中任意的三元组(e1,r,e2),如果选择头部节点,则从实体集E中随机选择除e1以外的节点来替换e1组成新的负三元组,以同样的方式也可以通过替换尾结点来得到负三元组;
[0006]S2、随机初始化实体节点和关系向量:将数据集中的实体节点和关系对应的向量进行随机均匀初始化,定义模型中的超参数,嵌入向量维度大小;
[0007]S3、设置batchsize的大小,从知识图谱中取出batchsize组三元组,从三元组中随机抽取若干个按照步骤一中的方式生成负三元组合并batchsize组原本正确的三元组构成三元组集A输入到Mf_SimplE模型中,提取出实体和关系对应的向量的一阶近似和二阶近似组成混合特征,根据混合特征计算出相似度分数,更新模型中的权重参数降低损失函数值直至收敛。
[0008]优选的,所述步骤S1中需要替换头或者尾实体结点生成负三元组,生成负三元组采用了TransE模型中破坏正确的三元组中的头结点或者尾结点的方法。
[0009]优选的,所述步骤S2中需要提取实体和节点的一阶特征和阶特征,并可需要针对数据集中提供的正三元组(e1,r,e2),需要通过SimplE模型的方法进行关系转换生成三元组
(e1,r,e2)对应的逆向三元组(e2,r
‑1,e1),正向和逆向三元组一同进行实体和关系向量的初始化。
[0010]优选的,所述步骤S2中需要提取实体和节点的一阶特征和二阶特征,并且对特征进行加权得到混合特征计算相似度分数,以及对于头节点,关系,尾结点的输入向量提取一阶近似,分别计算出z
11
、z
12
、z
13
如公式所示:
[0011][0012]z
12
=f(w
12
r
T
+b
12
)
[0013]z
13
=f(w
13
t
T
+b
13
)
[0014]阶近似作为主体特征,二阶近似为邻近特征,按照不同的权重计算得到混合特征分别为z1、z2和z3如公式所示,其中α是二阶近似所占的比重参数;
[0015]z1=f(w
21
z
11T
+b
21
)+α*z
11
[0016]z2=f(w
22
z
12T
+b
22
)+α*z
12
[0017]z3=f(w
23
z
13T
+b
23
)+α*z
13
[0018]提取到各节点对应的关系后需要计算三元组的相似度得分S,设正向打分设为S1,反向得分设为S2,最终得分S为S1和S2的平均值,如公式所示:
[0019][0020]本专利技术提供了一种基于Mf SimplE的知识图谱表示学习方法,具备以下有益效果:
[0021]本专利技术提出的知识图谱表示学习模型的优点主要包括在对知识图谱的关系进行宏观分析并进行合理转换后提取了每个实体和关系个体的特征用于模型学习。
[0022]本专利技术改进了传统方法在较复杂的知识图谱中解决一对多、多对一类型的关系不够好的问题,在没有明显增加时间复杂度的基础上相较于别的轻量级模型的精确度却有很大的提高;所以该模型在节点间关系不过于复杂的知识图谱中将发挥比较大的作用,并且其没有破坏节点和关系在实际场景中的逻辑联系,和外源知识例如实体描述这些信息结合后也将会有更好的效果。
附图说明
[0023]为了更清楚说明本专利技术提出的知识图谱表示学习模型,下面给出模型中的结构图,其中:
[0024]图1为本专利技术包含有X种实体节点和Y组关系节点的三元组集在X*Y维向量空间中的示意图;
[0025]图2为本专利技术Mf_SimplE模型的架构图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0027]请参阅图1至图2,本专利技术提供一种技术方案:一种基于Mf SimplE的知识图谱表示学习方法,具体包括如下步骤:
[0028]S1、对知识图谱中的三元组进行预处理生成负三元组:读取知识图谱数据中的一
批三元组S,对于S中任意的三元组(e1,r,e2),如果选择头部节点,则从实体集E中随机选择除e1以外的节点来替换e1组成新的负三元组,以同样的方式也可以通过替换尾结点来得到负三元组;
[0029]S2、随机初始化实体节点和关系向量:将数据集中的实体节点和关系对应的向量进行随机均匀初始化,定义模型中的超参数,嵌入向量维度大小;
[0030]S3、设置batchsize的大小,从知识图谱中取出batchsize组三元组,从三元组中随机抽取若干个按照步骤一中的方式生成负三元组合并batchsize组原本正确的三元组构成三元组集A输入到Mf_SimplE模型中,提取出实体和关系对应的向量的一阶近似和二阶近似组成混合特征,根据混合特征计算出相似度分数,更新模型中的权重参数降低损失函数值直至收敛。
[0031]本专利技术中:步骤S1中需要替换头或者尾实体结点生成负三元组,生成负三元组采用了Tran本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Mf_SimplE的知识图谱表示学习方法,具体包括如下步骤:S1、对知识图谱中的三元组进行预处理生成负三元组:读取知识图谱数据中的一批三元组S,对于S中任意的三元组(e1,r,e2),如果选择头部节点,则从实体集E中随机选择除e1以外的节点来替换e1组成新的负三元组,以同样的方式也可以通过替换尾结点来得到负三元组;S2、随机初始化实体节点和关系向量:将数据集中的实体节点和关系对应的向量进行随机均匀初始化,定义模型中的超参数,嵌入向量维度大小;S3、设置batchsize的大小,从知识图谱中取出batchsize组三元组,从三元组中随机抽取若干个按照步骤一中的方式生成负三元组合并batchsize组原本正确的三元组构成三元组集A输入到Mf_SimplE模型中,提取出实体和关系对应的向量的一阶近似和二阶近似组成混合特征,根据混合特征计算出相似度分数,更新模型中的权重参数降低损失函数值直至收敛。2.根据权利要求1所述的一种基于Mf_SimplE的知识图谱表示学习方法,其特征在于:所述步骤S1中需要替换头或者尾实体结点生成负三元组,生成负三元组采用了TransE模型中破坏正确的三元组中的头结点或者尾结点的方法。3.根据权利要求1所述的一种基于Mf_SimplE的知识图谱表示学习方法,其特征在于:所述步骤S2中需要提取实体和节点的一阶特征和阶特征,并可需要针对数据集中提供的正三元组(e1,r,e2),需要通过SimplE模型的方法进行关系转换生成三元组(e1,r,e2)对应的逆向三元组(e2,r
‑1,e1),正向和逆向三元组一同进行实体和关系向量的初始化。4.根据权...

【专利技术属性】
技术研发人员:刘杰曹梦媛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1