基于模式映射的知识图谱建立和数据获取方法、装置制造方法及图纸

技术编号:33072321 阅读:58 留言:0更新日期:2022-04-15 10:07
本发明专利技术公开了一种基于模式映射的知识图谱建立和数据获取方法、装置,所述方法包括:连接数据库,提取数据库中的数据和数据关系,输出概念属性数据关系模式;基于语义相似度,将数据库的数据与知识图谱中的概念属性进行匹配,判断数据库的关系模式与知识图谱的关系模式是否存在冲突;若不存在冲突,基于语义相似度,将数据库的关系模式映射至知识图谱的关系模式之中;将概念数据作为topic注册至Kafka消息中间件,令知识图谱进行订阅,数据经过消息中间件存储至知识图谱之中。采用上述技术方案,避免数据库的关系模式和知识图谱的关系模式之间的冲突,保障数据平稳存储至知识图谱中。中。中。

【技术实现步骤摘要】
基于模式映射的知识图谱建立和数据获取方法、装置


[0001]本专利技术涉及知识图谱数据处理
,尤其涉及一种基于模式映射的知识图谱建立和数据获取方法、装置。

技术介绍

[0002]数据信息服务和系统需要以数据库为技术和服务基础,在数据库中需要存储并管理海量数据信息。
[0003]由于信息化系统建设分散、数据来源广、规模大、格式杂,难以自动、高效抽取、存储于知识图谱中,并且因为不同的数据库的关系模式设置存在区别,因此在将数据从数据库引入知识图谱的过程中,容易发生与知识图谱现存关系模式的冲突。另外,由于数据量十分庞大,知识图谱获取并存储数据的效率也较低,且容易发生服务负载过荷。

技术实现思路

[0004]专利技术目的:本专利技术提供一种基于模式映射的知识图谱建立和数据获取方法、装置,旨在通过语义相似度,将数据库的数据与知识图谱的数据进行匹配,判断是否存在关系模式的冲突;通过Kafka消息中间件的设置,保障数据平稳存储至知识图谱中。
[0005]技术方案:本专利技术提供一种基于模式映射的知识图谱建立和数据获取方法,包括:连接数据库,提取数据库中的数据和数据关系,输出概念属性数据关系模式;其中,属性数据隶属于概念数据,数据关系包括概念属性数据之间的关系;基于语义相似度,将数据库的数据与知识图谱中的概念属性进行匹配,判断数据库的关系模式与知识图谱的关系模式是否存在冲突;若不存在冲突,基于语义相似度,将数据库的关系模式映射至知识图谱的关系模式之中;将概念数据作为topic注册至Kafka消息中间件,令知识图谱进行订阅,数据经过消息中间件存储至知识图谱之中。
[0006]具体的,所述数据库包括mysql、oracle、mongodb和gbase。
[0007]具体的,将数据库的概念数据基于语义匹配映射至知识图谱概念数据,将数据库的属性数据基于语义匹配映射至知识图谱属性数据。
[0008]具体的,判断数据库的概念属性关系与知识图谱的概念属性关系是否一致。
[0009]具体的,所述基于语义相似度,将数据库的数据与知识图谱中的概念属性进行匹配,判断数据库的关系模式与知识图谱的关系模式是否存在冲突,包括:计算数据库概念数据与知识图谱概念数据之间的语义相似度,选取标准相似度以上的知识图谱概念数据,计算数据库属性数据与知识图谱属性数据之间的语义相似度,选取标准相似度以上的知识图谱概念数据,根据选取的知识图谱概念属性数据之间是否存在关系确定是否关系一致;纳入计算的数据库概念数据和属性数据之间存在关系。
[0010]具体的,根据所述选取的知识图谱概念属性数据之间的关系,将数据库的概念属性数据进行相应的映射;存在多个知识图谱概念数据,或者所述选取的知识图谱概念属性数据之间存在多个关系时,根据其中语义相似度最高的进行映射。
[0011]具体的,语义相似度的计算包括:若字符数相同,则采用基于路径距离、本体特征和特征参数值的混合式语义相似度计算数据之间的语义相似度,公式如下:Sim(SE1,SE2)=1/(α+β+μ)
×
(αSim
P
(SE1,SE2)+βSim
ψ
(SE1,SE2)+μSim
ν
(SE1,SE
2 )),其中,Sim(SE1,SE2)表示数据SE1和SE2之间的语义相似度,Sim
P
(SE1,SE2)表示路径距离部分的语义相似度,Sim
ψ
(SE1,SE2)表示本体特征部分的语义相似度,Sim
ν
(SE1,SE
2 )表示特征参数值部分的语义相似度,α、β和μ分别表示路径距离、本体特征和特征参数值的权重;若字符数不相同,则采用基于编辑距离计算语义相似度,公式如下:sim(SE1,SE2)=2i/(m+n),其中,数据SE1的长度为n,SE2的长度为m,n>m,i表示SE1和SE2在前m个字符中相同的字符数量。
[0012]本专利技术还提供一种基于模式映射的知识图谱建立和数据获取装置,包括:数据连接单元、冲突检测单元、模式映射单元和数据获取单元,其中:所述数据连接单元,用于连接数据库,提取数据库中的数据和数据关系,输出概念属性数据关系模式;其中,属性数据隶属于概念数据,数据关系包括概念属性数据之间的关系;所述冲突检测单元,用于基于语义相似度,将数据库的数据与知识图谱中的概念属性进行匹配,判断数据库的关系模式与知识图谱的关系模式是否存在冲突;所述模式映射单元,用于若不存在冲突,基于语义相似度,将数据库的关系模式映射至知识图谱的关系模式之中;所述数据获取单元,用于将概念数据作为topic注册至Kafka消息中间件,令知识图谱进行订阅,数据经过消息中间件存储至知识图谱之中。
[0013]具体的,所述冲突检测单元,用于计算数据库概念数据与知识图谱概念数据之间的语义相似度,选取标准相似度以上的知识图谱概念数据,计算数据库属性数据与知识图谱属性数据之间的语义相似度,选取标准相似度以上的知识图谱概念数据,根据选取的知识图谱概念属性数据之间是否存在关系确定是否关系一致;纳入计算的数据库概念数据和属性数据之间存在关系。
[0014]具体的,所述模式映射单元,用于根据所述选取的知识图谱概念属性数据之间的关系,将数据库的概念属性数据进行相应的映射;存在多个知识图谱概念数据,或者所述选取的知识图谱概念属性数据之间存在多个关系时,根据其中语义相似度最高的进行映射。
[0015]有益效果:与现有技术相比,本专利技术具有如下显著优点:避免数据库的关系模式和知识图谱的关系模式之间的冲突,保障数据平稳存储至知识图谱中。
附图说明
[0016]图1为本专利技术提供的基于模式映射的知识图谱建立和数据获取方法的流程示意图;图2为本专利技术提供的数据获取的示意图。
具体实施方式
[0017]下面结合附图对本专利技术的技术方案作进一步说明。
[0018]参阅图1,其为本专利技术提供的基于模式映射的知识图谱建立和数据获取方法的流程示意图。
[0019]步骤1,连接数据库,提取数据库中的数据和数据关系,输出概念属性数据关系模式。
[0020]本专利技术实施例中,属性数据隶属于概念数据,数据关系包括概念属性数据之间的关系。
[0021]本专利技术实施例中,所述数据库包括mysql、oracle、mongodb和gbase。
[0022]在具体实施中,数据库中包括了实体数据和数据关系,以mysql为例,选择数据库表m1、m2和mrel,其中m1是实体表,记录了实体数据,m2也是实体表,同样记录了实体数据,mrel是关系表,记录了表m1与表m2实体数据之间的关系。基于实体数据本身和数据关系,可以输出概念属性关系模式和数据关系模式。在概念属性关系模式中,数据可以被划分为概念数据和属性数据,其中属性数据隶属于概念数据,是用于描述概念数据的,例如“人”属于概念数据,而“年龄”属于属性数据,用于描述“人”,那么“人”和“年龄”之间存在关系(概念属性数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模式映射的知识图谱建立和数据获取方法,其特征在于,包括:连接数据库,提取数据库中的数据和数据关系,输出概念属性数据关系模式;其中,属性数据隶属于概念数据,数据关系包括概念属性数据之间的关系;基于语义相似度,将数据库的数据与知识图谱中的概念属性进行匹配,判断数据库的关系模式与知识图谱的关系模式是否存在冲突;若不存在冲突,基于语义相似度,将数据库的关系模式映射至知识图谱的关系模式之中;将概念数据作为topic注册至Kafka消息中间件,令知识图谱进行订阅,数据经过消息中间件存储至知识图谱之中。2.根据权利要求1所述的基于模式映射的知识图谱建立和数据获取方法,其特征在于,所述数据库包括mysql、oracle、mongodb和gbase。3.根据权利要求1所述的基于模式映射的知识图谱建立和数据获取方法,其特征在于,所述将数据库的数据与知识图谱中的概念属性进行匹配,包括:将数据库的概念数据基于语义匹配映射至知识图谱概念数据,将数据库的属性数据基于语义匹配映射至知识图谱属性数据。4.根据权利要求3所述的基于模式映射的知识图谱建立和数据获取方法,其特征在于,所述判断数据库的关系模式与知识图谱的关系模式是否存在冲突,包括:判断数据库的概念属性关系与知识图谱的概念属性关系是否一致。5.根据权利要求4所述的基于模式映射的知识图谱建立和数据获取方法,其特征在于,所述基于语义相似度,将数据库的数据与知识图谱中的概念属性进行匹配,判断数据库的关系模式与知识图谱的关系模式是否存在冲突,包括:计算数据库概念数据与知识图谱概念数据之间的语义相似度,选取标准相似度以上的知识图谱概念数据,计算数据库属性数据与知识图谱属性数据之间的语义相似度,选取标准相似度以上的知识图谱概念数据,根据选取的知识图谱概念属性数据之间是否存在关系确定是否关系一致;纳入计算的数据库概念数据和属性数据之间存在关系。6.根据权利要求5所述的基于模式映射的知识图谱建立和数据获取方法,其特征在于,所述若不存在冲突,基于语义相似度,将数据库的关系模式映射至知识图谱的关系模式之中,包括:根据所述选取的知识图谱概念属性数据之间的关系,将数据库的概念属性数据进行相应的映射;存在多个知识图谱概念数据,或者所述选取的知识图谱概念属性数据之间存在多个关系时,根据其中语义相似度最高的进行映射。7.根据权利要求6所述的基于模式映射的知识图谱建立和数据获取方法,其特征在于,语义相似度的计算包括:若字符数相同,则采用基于路径距离、本体特征和特征参数值的混合式语义相似度计算数据之间的语义相似度,公式如下:Sim(SE1,SE2)=1/(α+β+μ...

【专利技术属性】
技术研发人员:苏晓威崔隽陆保国后弘毅谢泽宇郭嘉欣
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1