基于嵌入式学习的知识图谱的实体关系优化方法技术

技术编号:39140458 阅读:29 留言:0更新日期:2023-10-23 14:54
本发明专利技术公开了基于嵌入式学习的知识图谱的实体关系优化方法。本发明专利技术方法将原始知识图谱的三元组视作节点,并且添加了一组虚拟的关系节点;利用加权方法保证三元组线图中两个节点的三元组中的关系越相关,这些节点之间的边的权值就越高;将三元组通过深度学习模型所获的每一关系的置信度映射成每个三元组节点对于关系节点的权重,使得在拓扑结构中分布较远的三元组通过同享相似的关系而变得更加接近。在嵌入空间中,能够捕捉实体与语义的相似性以及推断三元组关系的正确性,为可信性低的三元组进行关系推荐,并结合人机交互的方式进行三元组的关系校正,使用校正后数据对深度学习模型进行迭代优化,提升了深度学习模型的关系抽取结果的质量。取结果的质量。取结果的质量。

【技术实现步骤摘要】
基于嵌入式学习的知识图谱的实体关系优化方法


[0001]本专利技术属于计算机科学和人工智能
,具体涉及一种基于嵌入式学习的知识图谱的实体关系优化方法。

技术介绍

[0002]知识图谱是将各类结构化和非结构化信息、数据和连接关系聚合为知识的有效组织方法。它以三元组的形式存储知识,并具有强大的语义处理和开放的组织能力,是互联网时代知识型组织和智能应用的基础。关系抽取的目标是解决实体间语义链接的问题。早期的关系抽取主要依赖人工构造语义规则和模板来识别实体关系,但这种方法耗费领域专家大量时间和精力,且可移植性差,无法适应新的文本语料库。
[0003]机器学习算法的发展为解决关系抽取问题提供了新方案。传统的机器学习方法分为有监督、半监督和无监督三类。有监督的关系抽取算法准确性较高,但受标注数据质量和数量的影响,且不能拓展到新关系。半监督和无监督方法对标注数据的依赖性较弱,适合大规模开放领域的关系抽取,但准确率较低且拓展性有限。近年来,基于深度学习的方法开始主导关系抽取领域。这些方法利用神经网络自动从原始文本中提取特征,避免了繁琐的手动特征工程,并且在处理复杂文本关系时具有强大的泛化能力。根据实体与关系抽取的顺序,关系抽取方法可以分为流水线方法和实体关系联合抽取方法,它们通常采用CNN、RNN及其改进模型进行关系抽取。
[0004]数据可视化在快速获取知识和洞察规律方面起到了重要作用。将可视分析技术应用于知识图谱中可以提高知识图谱的构建和表达。常见的知识图谱可视化包括节点连接、矩阵、层次结构等形式。可视分析技术通过节点大小、边的粗细等方式来表达实体和关系的重要性和相关程度。知识图谱的简化可视化方法适用于大规模知识图谱,具有数据量庞大、属性多维和结构复杂等特点。一些工作针对知识图谱的融合进行研究,以推动整个知识图谱的完善和拓展。
[0005]知识图谱嵌入表示是一种将知识图谱中的实体和关系映射到向量空间中的技术,它将结构化的知识图谱数据转化为机器学习算法可以处理的数值化特征,以便于后续的数据挖掘、推理和预测任务。典型的知识图谱嵌入技术可以分为翻译距离模型和语义匹配模型两类。翻译距离模型利用词向量嵌入空间的平移不变性,将关系表示为实体向量的平移。语义匹配模型通过匹配实体的潜在语义和向量空间表示中包含的关系来度量事实的可信性。这些嵌入方法在链接预测和知识图谱补全等任务中被证明是非常有效的。然而,大多数方法都在独立的嵌入向量中编码实体和谓词,缺乏对单个三元组嵌入的关注。现有研究主要集中于知识图谱的可视化展示和处理。

技术实现思路

[0006]本专利技术的目的就是提供一种基于嵌入式学习的知识图谱的实体关系优化方法。
[0007]本专利技术方法将原始知识图谱的三元组视作节点,并且添加了一组虚拟的关系节
点;利用Triple2Vec中的加权方法,保证了三元组线图中两个节点的三元组中的关系越相关,这些节点之间的边的权值就越高;同时将三元组通过深度学习模型所获的每一关系的置信度映射成每一三元组节点对于关系节点的权重,使得在拓扑结构中分布较远的三元组通过同享相似的关系而变得更加接近。具体方法是:
[0008]步骤(1)设定知识图谱G=(VE,EG,TG);其中,三元组集合TG={(h1,r1,t1),(h2,r2,t2),

,(h
K
,r
K
,t
K
)},K表示三元组数量;三元组中,h表示头实体,t表示头尾体,r表示头实体对尾实体的关系;实体集合VE={(h1,t1),(h2,t2),

,(h
K
,t
K
)},关系集合EG={r1,r2,

,r
K
};
[0009]构建三元组线图GL=(VL,EL,w);其中,节点集合VL中包括三元组节点和关系节点,三元组节点即为三元组集合TG中的所有三元组,关系节点即为关系集合EG中的所有关系;每个三元组节点与所有关系节点的连线即为边,EL表示边的集合,w表示边的权重;如果三元组(h
i
,r
i
,t
i
)和(h
j
,r
j
,t
j
)满足即两个三元组具有相同实体,则在GL中添加一条无向边E
i,j
∈EL,即两个三元组节点的连线;
[0010]对于两个三元组节点构成的边的权重w
T
设定方法如下:
[0011]a.计算两个三元组节点(h
i
,r
i
,t
i
)和(h
j
,r
j
,t
j
)的关系词频TF(r
i
,r
j
)=lg(1+C
i,j
),C
i,j
表示两个三元组节点中r
i
和r
j
连接相同的实体的次数;
[0012]b.计算逆文档频率|
·
|表示取集合中元素的个数;
[0013]c.建立共现矩阵C
M
(i,j,EG)=TF(r
i
,r
j
)
×
IDF(r
j
,EG);
[0014]d.计算权重w
T
=Softmax(cos(w
i
,w
j
)),Softmax(
·
)表示归一化函数,w
i
和w
j
分别是共现矩阵中r
i
和r
j
对应的行,cos(w
i
,w
j
)表示取w
i
与w
j
的余弦。
[0015]该方法保证了三元组线图中两个节点的三元组中的关系越相关,这些节点之间的边的权值就越高。然而,仅是通过词频来度量关系的相关性,还不足以诠释三元组的真实语义。并且在三元组数量较少的情况下,效果更是有限。因此,通过刻画三元组与关系节点的连接程度,来捕捉三元组中关系的相似性。
[0016]对于三元组节点(h
i
,r
i
,t
i
)与关系节点r
j
构成的边的权重w
R
=P
i,j
;P
i,j
表示深度学习模型中所获得的三元组(h
i
,r
i
,t
i
)在关系r
j
上的置信度值。
[0017]步骤(2)设定权重w
T
和w
R
的占比α和β,α>0,β>0,α+β=1,则两个三元组节点构成的边的游走概率三元组节点与关系节点构成的边的游走概率
[0018]从每个三元组节点开始,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于嵌入式学习的知识图谱的实体关系优化方法,其特征在于,该方法步骤包括:步骤(1)设定知识图谱G=(VE,EG,TG);三元组集合TG={(h1,r1,t1),(h2,r2,t2),

,(h
K
,r
K
,t
K
)},K表示三元组数量;三元组中,h表示头实体,t表示头尾体,r表示头实体对尾实体的关系;实体集合VE={(h1,t1),(h2,t2),

,(h
K
,t
K
)},关系集合EG={r1,r2,

,r
K
};构建三元组线图GL=(VL,EL,w);其中,节点集合VL中包括三元组节点和关系节点,三元组节点即为三元组集合TG中的所有三元组,关系节点即为关系集合EG中的所有关系;每个三元组节点与所有关系节点的连线即为边,EL表示边的集合,w表示边的权重,包括两个三元组节点构成的边的权重w
T
和三元组节点与关系节点构成的边的权重w
R
;如果三元组(h
i
,r
i
,t
i
)和(h
j
,r
j
,t
j
)满足即两个三元组具有相同实体,则在GL中添加一条无向边E
i,j
∈EL,即两个三元组节点的连线;步骤(2)设定权重w
T
和w
R
的占比α和β,α>0,β>0,α+β=1,则两个三元组节点构成的边的游走概率三元组节点与关系节点构成的边的游走概率从每个三元组节点开始,按照游走概率进行游走,直到达到指定的游走长度,即游走过的三元组节点的个数,游走生成的三元组节点序列构成语料库,语料库通过word2vec算法中的Skip

gram模型学习三元组节点之间的关系,得到每个三元组节点所对应的向量表示,即每一个词作为中心词生成背景词的联合概率;使用t

SNE降维算法将Skip

gram模型学习到的向量表示投影至二维平面上,得到每个三元组的二维平面分布,所有三元组的二维平面分布构成嵌入空间;步骤(3)在嵌入空间,对于具有相同头实体对尾实体的关系r的三元组,计算该部分三元组的中心坐标,与中心坐标欧式距离大于设定值的三元组即为可信性低三元组,为其推荐更可能正确的关系:计算每个关系r的中心坐标,以及可信性...

【专利技术属性】
技术研发人员:周志光张永马煜明刘玉华孟瑜炜俞荣栋傅骏伟
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1