一种基于自适应图卷积的知识图谱文字属性值补全方法技术

技术编号:35556905 阅读:11 留言:0更新日期:2022-11-12 15:38
本发明专利技术属于知识图谱补全领域,针对知识图谱中存在的文字属性值缺失问题,提出了一种基于自适应图卷积的知识图谱文字属性值补全方法(AGC

【技术实现步骤摘要】
一种基于自适应图卷积的知识图谱文字属性值补全方法


[0001]本专利技术属于知识图谱补全领域,针对知识图谱中存在的文字属性值缺失问题,提出了一种基于自适应图卷积的知识图谱文字属性值补全方法(AGC

AC)。

技术介绍

[0002]知识图谱(KnowledgeGraph)在人工智能(ArtificialIntelligence)的应用领域中起着至关重要的作用,它可以被视为知识的结构化表示,以关系三元组(头实体,关系,尾实体)或属性三元组(实体,属性,值)的形式表示一组事实。其中,头实体和尾实体被视为现实世界中的物体或抽象概念,连接两实体的边表示实体之间的二元关系,属性表示实体的特征。这种结构化知识表示方式很容易被机器理解和接受,从而大大提高人工智能系统的性能表现。
[0003]现阶段,由于人工或半自动的知识图谱构建方式(如图1所示)很难获得完备的信息,并且在构建过程中不可避免地会出现错误,这就导致已有的知识图谱在很大程度上存在不完全的问题。此外,随着信息的快速增长,不完全的问题日益加剧,这在很大程度上限制了知识图谱进一步向下游应用扩展,因此,知识图谱补全(KnowledgeGraphCompletion)方法应运而生。传统的补全方法仅使用从知识图谱的关系及结构信息中获得的特征来预测缺失的实体或关系,直到最近,实体属性已经与其他特征集成,以提高知识图谱补全的准确性。
[0004]实体属性是实体描述不可缺少的组成部分,在知识图谱的研究中起着至关重要的作用。它不仅可以丰富实体的概念,揭示实体的特征,而且有助于促进知识图谱中其他缺失部分的预测。然而,现阶段实体属性信息的利用是不充分的,大多数研究致力于挖掘和利用实体数值属性中包含的信息,而忽略了非数值属性的重要性。事实上,非数字属性的应用也受到不完整问题的限制:许多实体缺乏非数字属性的预期值,例如,对于表示一个国家的实体来说,通常应该具有首都、语言和一些其他属性。对于表示一个人的实体来说,更适合使用非数字属性,如性别、职业和国籍。
[0005]对于非数字属性补全而言,补全的结果应该是一种非数字属性值类型。与数字属性不同,非数字属性的补体问题可以看作是一个分类问题,因为候选结果的分布是离散的和可枚举的,例如,针对(X,性别,?)的查询,候选结果应为“男”或“女”这两种情况。
[0006]已有研究虽然在一定程度上解决了节点属性补全的问题,但很少有人关注文字属性和数字属性之间的差异,这限制了补全效果的进一步提高。由于文字属性容易与实体关系混淆,并且包含许多难以嵌入向量空间的数值文字值,因此本文重点解决文字属性补全问题,提出了一种新的基于自适应图聚类(AGC

AC)的实体文字属性补全模型,与数字属性值不同,文字属性值是离散和稀疏的,因此,我们进一步将该问题视为图聚类问题,通过在迭代过程中自适应更新K值,对数据进行最优分割以聚类相似属性,然后基于聚类划分好的簇对缺失属性值进行预测。

技术实现思路

[0007]一种基于自适应图卷积的知识图谱文字属性值补全方法主要包括以下三个步骤:
[0008]A.数据预处理:将离散数据转化为连续型数据,并将数据集处理为图卷积所需要的类型,即度矩阵D,邻接矩阵A以及特征矩阵F,方便后期对节点的聚类划分,其中特征矩阵F利用各节点属性取值的映射进行编码,例如{



:0,



:1}。
[0009]B.图聚类:将原有属性知识图谱中的节点结合自适应图卷积神经网络生成的特征表示进行划分,得到最佳节点簇。首先对属性图中的相关内容进行定义如下:
[0010]定义1:将属性知识图谱定义为无向图G=(V,E,Λ,X),其中,V={v1,v2,

,v
n
}为节点集, |V|=n,E为边集可以被表示为邻接矩阵Λ={a1,a2…
,a
g
}为节点的属性集合, |Λ|=g,为所有节点的特征矩阵,为节点v
i
的一个实值向量。则图聚类问题可以定义为如下形式:
[0011]定义2:对于给定的属性知识图谱G,图聚类的目的是将G中包含的节点划分成m个簇 C={C1,C2,

,C
m
},其中C
m
是节点集合的第m个划分。在图聚类的过程中利用谱聚类进一步将聚类问题转换为图的节点划分问题,主要步骤如下:
[0012]1、根据度矩阵D、邻接矩阵A,计算对称归一化的图拉普拉斯矩阵
[0013]2、根据计算X的k阶图卷积表示。
[0014]3、计算节点之间的成对相似性
[0015]4、计算权重矩阵
[0016]5、使用k

means方法进行聚类,得到C
(t)
个节点划分,其中t的初始值为0,并随迭代逐次加1。
[0017]6、自适应图聚类的主要思想是得到类内距离足够小,类间距离足够大的节点划分,故需计算节点的类间距离随着划分簇的数量k的增大,聚类效果逐渐提升,但当k超过一定阈值时,不同簇之间的节点就会混合在一起,出现过平滑的现象,故利用d_intra(t

1)=intra(C
(t)
)

intra(C
(t

1)
)限制迭代次数,当d_intra(t

1)>0时停止迭代,进而确定最优k值。
[0018]C.属性补全:
[0019]对于图聚类过程中得到的聚类划分C={C1,C2,

,C
i
},当目标节点v
i
(待预测节点)位于簇 C
i
中时,假设相似的节点具有相同的属性值,利用Jaccard计算目标节点与簇内具有a
i
属性的其他节点的相似度,则目标节点的待补全属性a
i
的预测值ε
i
即为与其相似度最高的节点的属性值。
[0020]本专利技术对比已有技术具有以下显著优点:
[0021]1、提出了知识图谱中实体文字属性值的预测问题。为了简化对问题的描述,使用“文字属性补全”来描述问题。
[0022]2、进一步将属性分为两类:文字属性和数字属性,并使用图聚类方法处理文字属
性值的补全问题。
[0023]3、提出了一种基于自适应图聚类的实体属性补全方法,该方法通过自适应地调整K值来获得最合适的节点划分,并且可以同时使用图结构和节点属性信息预测缺失的文字属性值。
附图说明
[0024]图1是本专利技术的背景图。
[0025]图2是本专利技术的总体流程图。
具体实施方式
[0026]下面结合附图,说明本专利技术的实施方式。
[0027]图2是一种基于自适应图卷积的知识图谱文字属性值补全方法(AGC
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应图卷积的知识图谱文字属性值补全方法主要包括以下三个步骤:A.数据预处理:将离散数据转化为连续型数据,并将数据集处理为图卷积所需要的类型,即度矩阵D,邻接矩阵A以及特征矩阵F,方便后期对节点的聚类划分,其中特征矩阵F利用各节点属性取值的映射进行编码,例如{



:0,



:1}。B.图聚类:将原有属性知识图谱中的节点结合自适应图卷积神经网络生成的特征表示进行划分,得到最佳节点簇。首先对属性图中的相关内容进行定义如下:定义1:将属性知识图谱定义为无向图G=(V,E,Λ,X),其中,V={v1,v2,L,v
n
}为节点集,|V|=n,E为边集可以被表示为邻接矩阵Λ={a1,a2L,a
g
}为节点的属性集合,|Λ|=g,X=[x1,x2,L,x
n
]
T
∈?
n
×
d
为所有节点的特征矩阵,为节点v
i
的一个实值向量。则图聚类问题可以定义为如下形式:定义2:对于给定的属性知识图谱G,图聚类的目的是将G中包含的节点划分成m个簇C={C1,C2,L,C
m
},其中C
m
是节点集合的第m个划分。在图聚类的过程中利用谱聚类进一步将聚类问题转换为图的节点划分问题,主要步骤如下:1、根据度矩阵D、邻接矩阵A,计算对称归一化的图拉普拉斯矩阵2、根据计算X的k阶图卷积表示。3、计算节点之间的成对相似性4、计算权重矩阵5、使用k

m...

【专利技术属性】
技术研发人员:徐九韵张文洁
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1