一种材料领域知识图谱的实体标签聚类方法及装置制造方法及图纸

技术编号:32455047 阅读:12 留言:0更新日期:2022-02-26 08:31
本发明专利技术提供了一种材料领域知识图谱的实体标签聚类方法及装置,涉及计算机技术。包括:获取三元组形式的材料领域知识图谱;统计节点和关系信息;构造标签分类树,拆分成标签分类子树;获得材料领域知识图谱聚类信息。本发明专利技术可完成对材料领域相对开放的静态知识图谱或未提供本体的材料领域静态知识图谱数据集在无先验知识情况下的实体标签聚类,具有一定的容错能力,可以用于知识图谱本体层标签确定、知识图谱标签异常检测。知识图谱标签异常检测。知识图谱标签异常检测。

【技术实现步骤摘要】
一种材料领域知识图谱的实体标签聚类方法及装置


[0001]本专利技术涉及计算机
,特别是指一种材料领域知识图谱的实体标签聚类方法及装置。

技术介绍

[0002]知识图谱是一种结构化的语义知识库。知识图谱中包含了大量的现实世界中的结构化信息,例如百科网站中的信息或材料领域金属加工工艺知识。知识图谱通常将基本事实抽象为实体,将基本事实之间的联系抽象为关系,进一步将实体抽象为节点,将关系抽象为边,则知识图谱可以转化为图结构数据,从而被计算机高效利用。知识图谱因其具有图特性,能显式表征事物属性及事物之间的联系,近几年得到研究人员的广泛关注。
[0003]对于材料领域,知识图谱的构建往往需要从开放领域语料中抽取,该抽取过程面向实例层,因此本体层的构建比较困难;或者一些研究者共享材料领域知识图谱数据时,可能以三元组形式共享数据,缺乏本体层信息。对知识图谱实体按标签聚类往往能够确定知识图谱的本体层,本体层能够帮助设计者认识所构建的知识图谱,对依赖知识图谱的下游任务而言,例如基于知识图谱的问答、知识图谱实体补全等任务,本体层能够为任务提供充分的信息。但受到知识图谱实体抽取技术的限制以及现有知识图谱构建方法的局限性,大规模知识图谱实体标签的建立十分困难,因此实体聚类工作十分重要,但获得实体标签往往比较困难。
[0004]现有的自动化方法往往需要引入额外的知识辅助分类,而人工标注成本极高,有时即使通过自动化技术或人工进行了实体标签标注,也很难对其准确性进行进一步的验证。

技术实现思路

[0005]针对现有技术中需要额外的知识辅助分类,且人工标注成本高又难以保证准确性的问题,本专利技术提出了一种材料领域知识图谱的实体标签聚类方法及装置。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]一方面,提供了一种材料领域知识图谱的实体标签聚类方法,包括:
[0008]S1:获取三元组形式的材料领域知识图谱;得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息;
[0009]S2:基于所述节点实体集合创建标签分类树根结点;
[0010]S3:基于谓词逻辑,遍历所有所述节点实体,将所述节点实体插入所述标签分类树,并记录支持交集结点存在的节点实体数量为证据数量;
[0011]S4:根据所述证据数量的阈值,将所述标签分类树拆分成标签分类子树;得到所述标签分类子树中根结点所记录的入边关系集合和出边关系集合;
[0012]S5:根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合,将每个所述节点实体归入所述标签分类子树代表的标签类别中,得到节点实体类别标
签,完成材料领域知识图谱的实体标签聚类。
[0013]可选地,步骤S1中,获取三元组形式的材料领域知识图谱;得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息,包括:
[0014]S11:若材料领域知识图谱是以三元组数据模型存储,则将三元组数据模型加载进入系统内存;若否,则先将所述材料领域知识图谱转化为三元组形式,再加载进入系统内存;
[0015]S12:遍历所述三元组,将所述三元组中的头实体和尾实体作为节点实体,添加至节点实体集合;
[0016]S13:根据添加的所述节点实体在所述三元组中的位置和所述三元组中包含的关系,确定所述关系与所述节点实体的进出关系;将所述关系添加至所述节点实体集合中,记作对应节点实体的入边关系或出边关系记录。
[0017]可选地,步骤S2中,基于所述节点实体集合创建标签分类树根结点,包括:
[0018]初始化所述标签分类树,创建标签分类树根结点。
[0019]可选地,步骤S3中,基于谓词逻辑,遍历所有所述节点实体,将所述节点实体插入所述标签分类树,并记录支持交集结点存在的节点实体数量为证据数量,包括:
[0020]S31:取所述节点实体集合中的一个节点实体,插入所述标签分类树根结点;
[0021]S32:取所述节点实体集合中另一个未添加至标签分类树中的新节点实体,以广度优先方式搜索所述标签分类树,根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况,并根据谓词逻辑将所述节点实体插入标签分类树的特定位置,记录检索结点证据数量;
[0022]S33:当对所述标签分类树搜索完成后未能插入新节点实体时,将新节点实体插入至所述标签分类树根结点;
[0023]S34:重复步骤S32

S33,直至完成对所述节点实体集合的遍历。
[0024]可选地,步骤S32中,取所述节点实体集合中另一个未添加至标签分类树中的新节点实体,以广度优先方式搜索所述标签分类树,根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况,并根据谓词逻辑将所述节点实体插入标签分类树的特定位置,记录检索结点证据数量,包括:
[0025]I.若所述节点实体与所述标签分类树中同一级至少一个所检索结点存在交集,则根据谓词逻辑推理公式(1)(2),在有交集的检索结点的父结点处插入新结点,将有交集的检索结点以及所述节点实体移动、插入至所述新结点下;所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集;所述新结点的证据数量记为1;
[0026]jC(x,y)=hasIntersection(x
in
,y
in
)∨hasIntersection(x
out
,y
out
)
ꢀꢀꢀꢀ
(1)
[0027][0028]其中,hasIntersection(x
d
,y
d
)表示集合x
d
与集合y
d
有交集,jC(x,y)表示节点实体x与结点y的入边集合有交集或出边集合有交集,表示所述节点实体e
i
与所述标签分类树中所检索结点T1的入边集合存在交集或所述节点实体e
i
与所述标签分类树中所检索结点T1的出边集合存在交集,areSL(T1,T2)表示所述标签分类树中所检索结点T1和T2处于所述标签分类树的同一级别,step(1)表示执行在有交集的检索结点T1和T2的父结点处插
入新结点,将所述有交集的检索结点T1和T2及所述节点实体e
i
移动、插入至所述新结点下,所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集,所述新结点的证据数量记为1的步骤;
[0029]II.若所述节点实体与所述标签分类树中同级的1个检索结点存在交集,且存在交集的检索结点为非叶子结点,则根据谓词逻辑推理公式(1)(3),将所述节点实体插入至所述检索结点,所述检索结点的入边关系和出边关系集合分别更新为原集合与所述节点实体的入边关系和出边关系集的并集,所述检索结点的证据数量增1;
[0030][0031]其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种材料领域知识图谱的实体标签聚类方法,其特征在于,包括:S1:获取三元组形式的材料领域知识图谱;统计知识图谱中的节点实体、节点实体集合以及节点实体的关系信息;S2:基于所述节点实体集合创建标签分类树根结点;S3:基于谓词逻辑,遍历所有所述节点实体,将所述节点实体插入所述标签分类树,并记录支持交集结点存在的节点实体数量为证据数量;S4:根据所述证据数量的阈值,将所述标签分类树拆分成标签分类子树;得到所述标签分类子树中根结点所记录的入边关系集合和出边关系集合;S5:根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合,将每个所述节点实体归入所述标签分类子树代表的标签类别中,得到节点实体类别标签,完成材料领域知识图谱的实体标签聚类。2.根据权利要求1所述的材料领域知识图谱的实体标签聚类方法,其特征在于,所述步骤S1中,获取三元组形式的材料领域知识图谱;得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息,包括:S11:若材料领域知识图谱是以三元组数据模型存储,则将三元组数据模型加载进入系统内存;若否,则先将所述材料领域知识图谱转化为三元组形式,再加载进入系统内存;S12:遍历所述三元组,将所述三元组中的头实体和尾实体作为节点实体,添加至节点实体集合;S13:根据添加的所述节点实体在所述三元组中的位置和所述三元组中包含的关系,确定所述关系与所述节点实体的进出关系;将所述关系添加至所述节点实体集合中,记作对应节点实体的入边关系或出边关系记录。3.根据权利要求2所述的材料领域知识图谱的实体标签聚类方法,其特征在于,所述步骤S2中,基于所述节点实体集合创建标签分类树根结点,包括:初始化所述标签分类树,创建标签分类树根结点。4.根据权利要求3所述的材料领域知识图谱的实体标签聚类方法,其特征在于,所述步骤S3中,基于谓词逻辑,遍历所有所述节点实体,将所述节点实体插入所述标签分类树,并记录支持交集结点存在的节点实体数量为证据数量,包括:S31:取所述节点实体集合中的一个节点实体,插入所述标签分类树根结点;S32:取所述节点实体集合中另一个未添加至标签分类树中的新节点实体,以广度优先方式搜索所述标签分类树,根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况,并根据谓词逻辑将所述节点实体插入标签分类树的特定位置,记录检索结点证据数量;S33:当对所述标签分类树搜索完成后未能插入新节点实体时,将新节点实体插入至所述标签分类树根结点;S34:重复步骤S32

S33,直至完成对所述节点实体集合的遍历。5.根据权利要求4所述的材料领域知识图谱的实体标签聚类方法,其特征在于,所述步骤S32中,根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况,并根据谓词逻辑将所述节点实体插入标签分类树的特定位置,记录检索结点证据数量,包括:
I.若所述节点实体与所述标签分类树中同一级至少一个所检索结点存在交集,则根据谓词逻辑推理公式(1)(2),在有交集的检索结点的父结点处插入新结点,将有交集的检索结点以及所述节点实体移动、插入至所述新结点下;所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集;所述新结点的证据数量记为1;jC(x,y)=hasIntersection(x
in
,y
in
)∨hasIntersection(x
out
,y
out
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,hasIntersection(x
d
,y
d
)表示集合x
d
与集合y
d
有交集,jC(x,y)表示节点实体x与结点y的入边集合有交集或出边集合有交集,表示所述节点实体e
i
与所述标签分类树中所检索结点T1的入边集合存在交集或所述节点实体e
i
与所述标签分类树中所检索结点T1的出边集合存在交集,areSL(T1,T2)表示所述标签分类树中所检索结点T1和T2处于所述标签分类树的同一级别,step(1)表示执行在有交集的检索结点T1和T2的父结点处插入新结点,将所述有交集的检索结点T1和T2及所述节点实体e
i
移动、插入至所述新结点下,所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集,所述新结点的证据数量记为1的步骤;II.若所述节点实体与所述标签分类树中同级的1个检索结点存在交集,且存在交集的检索结点为非叶子结点,则根据谓词逻辑推理公式(1)(3),将所述节点实体插入至所述检索结点,所述检索结点的入边关系和出边关系集合分别更新为原集合与所述节点实体的入边关系和出边关系集的并集,所述检索结点的证据数量增1;其中,表示存在交集的所检索结点T1为非叶子结点,step(2)表示执行将所述节...

【专利技术属性】
技术研发人员:付冬梅宋广轩
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1