一种基于知识图谱的数据管理方法、系统、设备及介质技术方案

技术编号:28141331 阅读:26 留言:0更新日期:2021-04-21 19:18
本发明专利技术提供了大数据技术领域的一种基于知识图谱的数据管理方法、系统、设备及介质,方法包括如下步骤:步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;步骤S40、基于所述知识图谱对大数据进行管理。本发明专利技术的优点在于:极大的提升了数据管理的质量。管理的质量。管理的质量。

【技术实现步骤摘要】
一种基于知识图谱的数据管理方法、系统、设备及介质


[0001]本专利技术涉及大数据
,特别指一种基于知识图谱的数据管理方法、系统、设备及介质。

技术介绍

[0002]随着大数据分析服务能力的不断提升,推动着企业经营分析、应用方式和架构的转变,以动态化、可视化、关联分析为核心的业务分析场景逐步成为主要手段。因此,产生了对大数据的数据指标进行管理的需求。
[0003]针对数据指标的管理,传统上仅仅停留在指标规范定义的层面,未对指标关系、指标口径进行管理,即只管理到数据指标的定义,导致存在如下缺点:容易出现指标口径不统一、同名不同义、同义不同名的情况,当数据指标的口径变更后,应用调整的工作量巨大,或出现真正落地的口径未发生变化,频发表里不一的情况。
[0004]因此,如何提供一种基于知识图谱的数据管理方法、系统、设备及介质,实现提升数据管理的质量,成为一个亟待解决的问题。

技术实现思路

[0005]本专利技术要解决的技术问题,在于提供一种基于知识图谱的数据管理方法、系统、设备及介质,实现提升数据管理的质量。
[0006]第一方面,本专利技术提供了一种基于知识图谱的数据管理方法,包括如下步骤:
[0007]步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
[0008]步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;
[0009]步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
[0010]步骤S40、基于所述知识图谱对大数据进行管理。
[0011]进一步地,所述步骤S10具体为:
[0012]服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
[0013]进一步地,所述步骤S20具体为:
[0014]服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
[0015]进一步地,所述步骤S30具体为:
[0016]服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
[0017]第二方面,本专利技术提供了一种基于知识图谱的数据管理系统,包括如下模块:
[0018]关联关系解析模块,用于服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
[0019]大数据预处理模块,用于服务器获取待管理的大数据,并对所述大数据进行预处理;
[0020]知识图谱生成模块,用于服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
[0021]大数据管理模块,用于基于所述知识图谱对大数据进行管理。
[0022]进一步地,所述关联关系解析模块具体为:
[0023]服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。
[0024]进一步地,所述大数据预处理模块具体为:
[0025]服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。
[0026]进一步地,所述知识图谱生成模块具体为:
[0027]服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。
[0028]第三方面,本专利技术提供了一种基于知识图谱的数据管理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
[0029]第四方面,本专利技术提供了一种基于知识图谱的数据管理介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
[0030]本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0031]通过解析任务信息得到数据间的关联关系,对待管理的大数据进行预处理提取出指标名称,再以指标名称作为知识图谱的节点,以关联关系作为各节点间连接的边,生成对应的知识图谱,最终基于知识图谱对大数据进行管理,即预先对各指标名称的口径(关联关系)进行结构化,基于统一的口径生成、更新知识图谱,避免出现口径不统一、同名不同义、同义不同名的情况,且极大的减轻了知识图谱更新的工作量,避免口径表里不一的情况,即极大的提升了数据管理的质量。
[0032]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0033]下面参照附图结合实施例对本专利技术作进一步的说明。
[0034]图1是本专利技术一种基于知识图谱的数据管理方法的流程图。
[0035]图2是本专利技术一种基于知识图谱的数据管理系统的结构示意图。
[0036]图3是本专利技术一种基于知识图谱的数据管理设备的结构示意图。
[0037]图4是本专利技术一种基于知识图谱的数据管理介质的结构示意图。
[0038]图5是本专利技术知识图谱的结构示意图。
具体实施方式
[0039]本申请实施例通过提供一种基于知识图谱的数据管理方法、系统、设备及介质,实现提升数据管理的质量。
[0040]本申请实施例中的技术方案,总体思路如下:通过解析任务信息得到数据间的关联关系,对待管理的大数据进行预处理提取出指标名称,再以指标名称作为知识图谱的节点,以关联关系作为各节点间连接的边,生成对应的知识图谱对大数据进行管理,以提升数据管理的质量。
[0041]实施例一
[0042]本实施例提供一种基于知识图谱的数据管理方法,如图1和图5所示,包括如下步骤:
[0043]步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;
[0044]步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;所述大数据为业务领域的基础数据、原子化数据;
[0045]步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;
[0046]步骤S40、基于所述知识图谱对大数据进行管理。
[0047]知识图谱是以图数据结构为信息承载方式,用于描述实体、概念之间关系的信息管理工具。知识图谱的基础单元是节点,两个以上的节点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的数据管理方法,其特征在于:包括如下步骤:步骤S10、服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;步骤S20、服务器获取待管理的大数据,并对所述大数据进行预处理;步骤S30、服务器从所述仓库表中读取关联关系,利用所述关联关系以及预处理后的大数据生成对应的知识图谱;步骤S40、基于所述知识图谱对大数据进行管理。2.如权利要求1所述的一种基于知识图谱的数据管理方法,其特征在于:所述步骤S10具体为:服务器创建一仓库表,通过ETL同步任务信息,并利用元数据管理工具解析所述任务信息得到数据间的关联关系,并将所述关联关系存储至仓库表中;所述关联关系为数据之间的生成关系、依赖关系以及数据类别。3.如权利要求1所述的一种基于知识图谱的数据管理方法,其特征在于:所述步骤S20具体为:服务器获取待管理的大数据,利用机器学习技术对所述大数据进行分词处理,生成若干个分词,并利用所述分词提取出指标名称以及指标定义。4.如权利要求3所述的一种基于知识图谱的数据管理方法,其特征在于:所述步骤S30具体为:服务器从所述仓库表中读取关联关系,以所述指标名称作为知识图谱的节点,以所述关联关系作为各节点间连接的边,进而基于各所述节点和边生成对应的知识图谱。5.一种基于知识图谱的数据管理系统,其特征在于:包括如下模块:关联关系解析模块,用于服务器创建一仓库表,解析任务信息得到数据间的关联关系并存储至所述仓库表中;大数据预处理模块,用于服务器获取待管...

【专利技术属性】
技术研发人员:陈翔
申请(专利权)人:福建新大陆软件工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1