一种基于高阶邻居属性传播的知识图谱节点属性补全方法技术

技术编号:35454965 阅读:51 留言:0更新日期:2022-11-03 12:11
本发明专利技术公开了一种基于高阶邻居属性传播的知识图谱节点属性补全方法,涉及知识图谱补全领域,针对知识图谱中存在的数字属性值缺失问题,该方法在多关系知识图谱上聚合来自节点高阶邻居的属性信息,利用回归函数计算不同关系下每对属性之间的相互影响,并在传播及迭代更新过程中调整模型参数,使用预测误差优化模型损失,直至取得最优预测效果。在两个通用数据集上的实验结果表明,由于考虑了知识图谱中所包含的实体的高阶邻居信息,该发明专利技术能更加准确、有效地预测节点属性的缺失值,补全效果好。补全效果好。补全效果好。

【技术实现步骤摘要】
一种基于高阶邻居属性传播的知识图谱节点属性补全方法


[0001]本专利技术涉及知识图谱补全领域,针对知识图谱中存在的数字属性值缺失问题,提出了一种基 于高阶邻居属性传播的知识图谱节点属性补全方法。

技术介绍

[0002]知识图谱在人工智能的应用领域中起着至关重要的作用,它可以被视为知识的结构化表 示,以关系三元组(头实体,关系,尾实体)或属性三元组(实体,属性,值)的形式表示 一组事实。其中,头实体和尾实体被视为现实世界中的物体或抽象概念,连接两实体的边表 示实体之间的二元关系,属性表示实体的特征。这种结构化知识表示方式很容易被机器理解 和接受,从而大大提高人工智能系统的性能表现。
[0003]实体属性是实体描述不可缺少的组成部分,在知识图谱的研究中起着至关重要的作用。 利用属性中包含的语义信息,可以极大地提高知识图谱表示学习、知识图谱补全和实体对齐 等多项任务的表现。因此,在节点属性补全中加入对目标节点高阶邻居信息的考虑就显得尤 为重要。

技术实现思路

[0004]为了克服现有的基于低阶结构信息的知识图谱属性补全方法对确实属性预测准确度较低、 忽视周围高阶邻居中所包含的潜在语义信息,充分利用节点邻居中包含的潜在信息,本专利技术 提出了一种基于高阶邻居属性传播的知识图谱节点属性补全方法。
[0005]本专利技术解决其技术问题所采用的具体步骤是:
[0006]一种基于高阶邻居属性传播的知识图谱节点属性补全方法,包括如下步骤:
[0007]步骤1:具有n个实体的数字属性知识图谱可以表示为G=(E,R,P,A),其中 E={e
i
|i=1,

n}表示实体集合,R={r
i,j
}表示节点e
i
和e
j
之间的多关系边,其中e
i
,e
j
∈E, P={p
i
|i=1,

,k}和A={a
i
|i=1,

,m}分别表示关系路径和属性。因此,实体e的属性可以 定义为A
e

[0008]步骤2:实体e∈E的邻居集合可以定义为其中i表示邻居的阶数。
[0009]步骤3:对于实体e,A
e
表示其属性集合,对于e的邻居,我们使用定义其属性,其中i与上述一致,表示邻居的阶数。
[0010]步骤4:模型预测属性值的来源主要可以分为三大部分,包括实体内部属性信息、实体 周围一阶邻居信息以及实体周围二阶邻居信息。对于实体内部属性信息,我们将该部分的贡 献设置为对节点自身其他属性的线性回归:
[0011]y
v
=f
y|x
(x
v
)=η
y|x
x
v

y|x
+ε0[0012]其中,误差ε0服从标准差为σ
y|x
的正态分布,即ε0~N(0,(σ
y|x
)2)。则方差(σ
y|x
)2可利用如下方式 计算:(σ
y|x
)2=mean({(y
v

η
y|x
x
v

γ
y|x
)2|v∈ε
y|x
})
[0013]ε
y|x
为节点属性集合。对于参数η
y|x
和γ
y|x
估计方式如下:
[0014][0015]γ
y|x
=mean({(y
v

η
y|x
x
n
)|v∈ε
(y,x)
})
[0016][0017]其中,μ
x
,μ
y
分别为属性x和y的均值。
[0018]步骤2:与节点自身信息的表示类似,一阶邻居信息的贡献为一阶邻居中所包含属性的 线性回归,不同的是,在一阶邻居的线性回归中,结合图的多关系结构对节点之间不同的连 接关系进行了加权区分。
[0019]步骤3:为了尽可能多的利用图中所包含的有用信息,本专利技术提出了一种新的二阶邻居 信息的利用方法。通过图2我们可以发现,随着阶数的增加,节点的邻居数量将呈指数型增 长,因此,不同于实体的一阶邻居,我们采用相似度对二阶邻居与节点之间的相关性进行度 量,从而筛选出对实体缺失属性预测最有价值的二阶邻居实体,以确保在提升信息利用率的 同时,最大程度的减小计算开支。具体步骤为:
[0020](1)查找目标节点e
i
的一阶邻居集合
[0021](2)查找中包含的所有节点的邻居节点集且满足通过相似度度量 指标计算e
i
和之间的相似度
[0022](3)根据相似度度量指标计算出的值对实体进行排序,选择前T个最大的实体作为 二阶邻居;
[0023](4)为和e
i
建立新的连接,权重设为所包含一阶邻居的权重最小值。
[0024]步骤4:经过二阶邻居发现方法筛选后,原始图结构得到了有效简化。则二阶邻居信息 可以表示如下:
[0025][0026][0027][0028][0029]步骤5:计算损失函数。模型的学习目标是为了最小化缺失的属性值与从内部和外部信 息源收集的预测之间的距离。具体定义如下:
[0030][0031]步骤6:当距离函数d(
·
)简单的取做平方差时,该问题的解可以通过对y
e
求导得到。在聚 合周围邻居对节点e的属性值贡献时,通过k次迭代获得达到收敛域值的e的预测如下:
[0032][0033]其中,为归一化因子。
[0034]步骤7:为了保证收敛,新的预测将通过阻尼因子进行如下处理:
[0035][0036]步骤8:经过反复迭代,模型最终获得了一个稳定的状态,以最小化相邻节点之间标签 的不一致性。
[0037]步骤9:从知识图谱任意选取残缺数值属性的三元组(e,a,?),其中?表示待补全的实体, 遍历实体集合,计算步骤6中的值,选取最小预测误差对应的预测值作为当前属性三元组补 全结果,得到补全的三元组(e,a,v);
[0038]步骤10:遍历知识图谱中所有的残缺属性三元组,重复执行步骤6、7、8,得到补全完 整的数值属性知识图谱。
[0039]本专利技术的技术构思为:本专利技术提出了考虑知识图谱中包含的高阶结构,结合实体内部属 性信息,在训练时充分聚合来自周围邻居和实体自身属性信息,从而提高知识图谱数值属性 补全的准确性。
[0040]如上所述,本专利实施的具体实现步骤使本专利技术更加清晰。在本专利技术的精神和权利要求 的保护范围内,对本专利技术作出的任何修改和改变,都落入本专利技术的保护范围。
[0041]本专利技术的优点是:强调了高阶邻居在节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高阶邻居属性传播的知识图谱节点属性补全方法,包括如下步骤:步骤1:具有n个实体的数字属性知识图谱可以表示为G=(E,R,P,A),其中E={e
i
|i=1,

n}表示实体集合,R={r
i,j
}表示节点e
i
和e
j
之间的多关系边,其中e
i
,e
j
∈E,P={p
i
|i=1,

,k}和A={a
i
|i=1,

,m}分别表示关系路径和属性。因此,实体e的属性可以定义为A
e
。步骤2:实体e∈E的邻居集合可以定义为其中i表示邻居的阶数。步骤3:对于实体e,A
e
表示其属性集合,对于e的邻居,我们使用定义其属性,其中i与上述一致,表示邻居的阶数。步骤4:模型预测属性值的来源主要可以分为三大部分,包括实体内部属性信息、实体周围一阶邻居信息以及实体周围二阶邻居信息。对于实体内部属性信息,我们将该部分的贡献设置为对节点自身其他属性的线性回归:y
v
=f
y|x
(x
v
)=η
y|x
x
v

y|x
+ε0其中,误差ε0服从标准差为σ
y|x
的正态分布,即ε0~N(0,(σ
y|x
)2)。则方差(σ
y|x
)2可利用如下方式计算:(σ
y|x
)2=mean({(y
v

η
y|x
x
v

γ
y|x
)2|v∈ε
y|x
})ε
y|x
为节点属性集合。对于参数η
y|x
和γ
y|x
估计方式如下:γ
y|x
=mean({(y
v

η
...

【专利技术属性】
技术研发人员:徐九韵张文洁
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1