可视化治理数据的方法及系统技术方案

技术编号:28035316 阅读:48 留言:0更新日期:2021-04-09 23:17
本申请公开了一种治理数据的方法、系统、计算机设备及存储介质,方法包括:构数据接入步骤:通过数据类接入算子接入数据库;数据治理步骤:通过规则映射算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。本发明专利技术能够降低数据治理门槛,用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求。

【技术实现步骤摘要】
可视化治理数据的方法及系统
本专利技术属于治理数据的方法领域,具体涉及一种可视化治理数据的方法及系统。
技术介绍
结构化数据治理是大型数据平台或数据中台中的重要一环,广泛应用于各类项目或数据平台中。通常有几个主要环节:1、数据源接入环节2、数据治理环节3、治理结果输出环节而数据治理环节,通常会有几种常见场景:1、表结构的转换来自不同的业务系统中,对于人的数据记录内容不同,表结构也有很大差异(如下图所示的表A和表B),我们在进入平台应用时,需要构建出一张新的表C,或者平台中已经存在表C,将A和B的数据融合到表C中;2、数据格式的转换例如表A的日期格式是YYYY-MM-DD,表B的日期格式是YYYY/MM/DD,整合到表C中的时候,就存在格式差异,需要在数据进入到表C之前,基于表C需要的格式,分别对表A和表B的数据格式分别做转换,我们称为【规则】;数据治理产品核心需要解决上述问题,能够支持批量或实时的数据治理需求,治理过程自动化完成。【现有方案一】:不使用任何工具产品,根据数据治理需求,casebycase技术开发;【现有方案二】:一部分工具类产品,将治理环节封装成算子进行可视化配置;(每个算子都是一个技术处理单元)。【现有方案一】:治理流程不透明,没有复用性,且开发成本高,只有代码,不便于确认业务逻辑,不做赘述更多缺点;【现有方案二】:全流程是算子的级联,技术处理难度高,且中间结果不落地,如果出现问题,不容易修改;算子级联类似于算子A=〉算子B=〉算子C;如果算子B的环节出错,后续全部不能运行,且中间结果不落地,逐一排查问题后,需要全流程重跑数据,实际业务中会很耗时或处理量会很大;区别于此,当前方案是:数据源表1=〉算子A=〉表2=〉算B=〉表3=〉算子C=〉表4;这种方式,即便算子B的环节出错,算子B之前的表2数据是保留的,只需要排查问题后修改治理逻辑,从表2向后,重跑算子B之后的流程即可,重跑数据量不大,且更快。
技术实现思路
本申请实施例提供了一种可视化治理数据的方法、系统、计算机存储设备,以至少解决相关技术中主观因素影响的问题。本专利技术提供了一种可视化治理数据的方法,其中,包括:数据接入步骤:通过数据类接入算子接入数据库;数据治理步骤:通过数据治理算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。上述方法,其中,所述数据接入步骤包括:JDBC输入步骤:通过JDBC输入算子接入支持JDBC的数据库;externalHive输入步骤:通过externalHive输入算子接入Hive数据。上述方法,其中,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。上述方法,其中,所述知识图谱数据融合步骤包括:实体融合步骤:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;关系对偶步骤:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;事件去重步骤:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。上述方法,其中,所述画布的可视化配置步骤包括:从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。本专利技术还包括一种可视化治理数据的系统,其中,包括:数据接入模块,所述数据接入模块通过数据类接入算子接入数据库;数据治理模块,所述数据治理模块通过规则映射算子配置治理过程中的表结构转换和数据格式转换;知识图谱数据融合模块,所述知识图谱数据融合模块通过知识图谱数据融合类算子进行知识图谱数据融合;数据输出模块,所述数据输出模块将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;画布的可视化配置模块,所述画布的可视化配置模块通过表将上述算子处理好的数据进行落地。上述系统,其中,所述数据接入模块包括:JDBC输入单元,所述JDBC输入单元通过JDBC输入算子接入支持JDBC的数据库;externalHive输入单元,所述externalHive输入单元通过externalHive输入算子接入Hive数据。上述系统,其中,所述数据治理模块包括通过所述规则映射算子配置治理过程中的表结构转换和数据格式转换。上述系统,其中,所述知识图谱数据融合模块包括:实体融合单元,所述实体融合单元通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;关系对偶单元,所述关系对偶单元通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;事件去重单元,所述事件去重单元通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。上述系统,其中,所述画布的可视化配置模块包括:从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。本专利技术的有益效果在于:1、降低数据治理门槛:用户只需要拖拽和配置必要的参数,可以降低数据治理的技术门槛,让治理人员有更多精力关注治理的业务需求。2、可视化、透明:治理流程通过血缘图的形式呈现和配置,治理全链路清晰透明。3、中间结果落地、可见,实用性强::治理过程需要使用【中间表】将治理的每个环节数据落地,数据可落地、问题好排查、降低治理难度和应用效率。4、扩展性强:治理能力封装成独立算子,将来治理场景扩展时,只需要做算子级开发和扩展即可,治理框架不变,例如,需要增加一种数据源介入,只需要开发一种支持该数据源介入的算子即可。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是可视化治理数据的方法的流程图;图2是图1中步骤S1的分步骤流程图;图3是图1中步骤S3的分步骤流程图;图4是本专利技术的治理数据的系统的结构示意图;图5是根据本专利技术实施例的计算机设备的框架图;图6是画布的可本文档来自技高网
...

【技术保护点】
1.一种可视化治理数据的方法,其特征在于,包括:/n数据接入步骤:通过数据类接入算子接入数据库;/n数据治理步骤:通过数据治理算子配置治理过程中的表结构转换和数据格式转换;/n知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;/n数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;/n画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。/n

【技术特征摘要】
1.一种可视化治理数据的方法,其特征在于,包括:
数据接入步骤:通过数据类接入算子接入数据库;
数据治理步骤:通过数据治理算子配置治理过程中的表结构转换和数据格式转换;
知识图谱数据融合步骤:通过知识图谱数据融合类算子进行知识图谱数据融合;
数据输出步骤:将治理完成的数据结果,输入到指定的业务数据库,通过NEST输出算子定向写入NEST数据库;
画布的可视化配置步骤:通过表将上述算子处理好的数据进行落地。


2.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述数据接入步骤包括:
JDBC输入步骤:通过JDBC输入算子接入支持JDBC的数据库;
externalHive输入步骤:通过externalHive输入算子接入Hive数据。


3.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述数据治理步骤包括:所述数据治理算子包括规则映射算子,所述规则映射算子配置治理过程中的表结构转换和数据格式转换。


4.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述知识图谱数据融合步骤包括:
实体融合步骤:通过实体融合算子将结构化数据治理完成后的数据,整合成知识图谱所需要的实体数据;
关系对偶步骤:通过对偶算子将结构化数据治理完成后的数据,整合成知识图谱所需要的关系数据;
事件去重步骤:通过事件去重算子将结构化数据治理完成后的数据,整合成知识图谱所需要的事件数据。


5.如权利要求1所述的一种可视化治理数据的方法,其特征在于,所述画布的可视化配置步骤包括:
从数据源中抽取数据,经过JDBC接入后,落地到第一中间表中,将中间表中的数据映射到第二中间表中;再将第二中间表的数据按照知识图谱的实体表要求做实体融合,落地到目标表中;最后将目标表的数据输出写入所述NEST数据库中。


6.一种可视化治理数据的系统,其特征在于,包括:
数据接入模块,所...

【专利技术属性】
技术研发人员:王虹晔
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1