应用于大数据平台的数据链路处理方法、系统及介质技术方案

技术编号:34431679 阅读:62 留言:0更新日期:2022-08-06 16:09
本发明专利技术实施例公开了一种应用于大数据平台的数据链路处理方法、系统及介质,本申请涉及数据处理技术领域,该方法包括:ETL工具将源数据同步至大数据平台时,第一源数据捕获插件捕获第一同步任务,并对其进行处理得到第一上传信息;大数据平台将源数据同步至应用数据库时,第二源数据捕获插件捕获第二同步任务,并对其进行处理得到第二上传信息;应用系统从应用数据库调用源数据时,数据链路识别插件捕获调用任务及采集调用信息,并对其进行处理得到链路上传信息;可视化展示系统对接收到的第一上传信息、第二上传信息以及链路上传信息进行归并以生成数据流转链路图。本申请实施例可提高链路数据管理的效率。高链路数据管理的效率。高链路数据管理的效率。

【技术实现步骤摘要】
应用于大数据平台的数据链路处理方法、系统及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种应用于大数据平台的数据链路处理方法、系统及介质。

技术介绍

[0002]现有随着物联网、大数据、云计算等技术的迅猛发展,使人类社会中的数据种类和规模得到了前所未有的增长,标志着大数据时代已经正式到来。丰富的数据资源是大数据的重要前提,组织或企业面临的数据类型复杂,数据量大,很难理清数据在大数据平台及其应用的所有流向,很难梳理出数据的调用关系及路径流转关系,不利于组织或企业对链路数据进行管理,链路数据管理的效率较低。

技术实现思路

[0003]本专利技术实施例提供了一种应用于大数据平台的数据链路处理方法、系统及介质,旨在解决现有链路数据管理效率较低的问题。
[0004]第一方面,本专利技术实施例提供了一种应用于大数据平台的数据链路处理方法,其包括:ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
[0005]第二方面,本专利技术实施例还提供了一种应用于大数据平台的数据链路处理系统,其包括配置于ETL工具中的第一捕获处理单元,配置于大数据平台中的第二捕获处理单元,配置于应用系统中的第三捕获处理单元以及配置于可视化展示系统中的归并生成单元,其中:所述第一捕获处理单元用于ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并
对所述第一同步任务进行处理得到第一上传信息;所述第二捕获处理单元用于所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述第三捕获处理单元用于所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;所述归并生成单元用于可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。
[0006]第三方面,本专利技术实施例还提供了一种应用于大数据平台的数据链路处理系统,其包括ETL工具、大数据平台、应用系统以及可视化展示系统,所述ETL工具、大数据平台、应用系统以及可视化展示系统均包括存储器及处理器,所述存储器上存储有计算机程序,所述ETL工具、大数据平台、应用系统以及可视化展示系统的处理器执行各自的所述计算机程序时共同实现上述方法。
[0007]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被多个处理器执行时可实现上述方法。
[0008]本专利技术实施例提供了一种应用于大数据平台的数据链路处理方法、系统及介质。其中,所述方法包括:ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。在本专利技术实施例的技术方案中,先通过对ETL工具将源数据同步至大数据平台时的第一同步任务进行处理得到第一上传信息;再对大数据平台将源数据同步至应用数据库时的第二同步任务进行处理得到第二上传信息;然后对应用系统调用应用数据库中的源数据时的调用任务进行处理得到调用链路信息;最后可视化展示系统对上传的第一上传信息、第二上传信息以及链路上传信息进行归并生成数据流转链路图,理清了数据的所有流向,梳理出了数据的调用关系及路径流转关系,从而提高了链路数据管理的效率。
附图说明
[0009]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术实施例提供的一种应用于大数据平台的数据链路处理系统的场景示意图;图2为本专利技术实施例提供的一种应用于大数据平台的数据链路处理方法的流程示意图;图3为本专利技术实施例提供的一种应用于大数据平台的数据链路处理方法的子流程示意图;图4为本专利技术实施例提供的一种应用于大数据平台的数据链路处理系统的示意性框图;图5为本专利技术实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0011]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0012]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和
ꢀ“
包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0013]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于大数据平台的数据链路处理方法,其特征在于,包括:ETL工具将与业务系统相对应的业务数据库中的源数据同步至与大数据平台相对应的数据仓库时,第一源数据捕获插件捕获第一同步任务,并对所述第一同步任务进行处理得到第一上传信息;所述大数据平台将所述数据仓库中的所述源数据同步至与应用系统相对应的应用数据库时,第二源数据捕获插件捕获第二同步任务,并对所述第二同步任务进行处理得到第二上传信息;所述应用系统调用所述应用数据库中的所述源数据时,数据链路识别插件捕获调用任务,对所述调用任务进行处理得到第三上传信息,采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,将所述调用链路信息及所述第三上传信息作为链路上传信息;可视化展示系统接收所述第一源数据捕获插件上传的所述第一上传信息、所述第二源数据捕获插件上传的所述第二上传信息以及所述数据链路识别插件上传的所述链路上传信息,并对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图。2.根据权利要求1所述的应用于大数据平台的数据链路处理方法,其特征在于,所述对所述第一同步任务进行处理得到第一上传信息,包括:对所述第一同步任务进行解析得到所述源数据;通过数据识别方法对所述源数据进行识别以确定数据类别;判断所述数据类别是否为个人隐私数据;若所述数据类别为个人隐私数据,则对所述源数据进行标识、分类以及分级处理得到第一上传信息。3.根据权利要求2所述的应用于大数据平台的数据链路处理方法,其特征在于,所述通过数据识别方法对所述源数据进行识别以确定数据类别,包括:通过定义的个人隐私数据具体类型的正则表达式、字典、关键字识别规则对所述源数据进行匹配得到匹配分值;将所述匹配分值最高的类型作为所述源数据的数据类别。4.根据权利要求1所述的方法,其特征在于,所述采集所述调用任务过程中的调用信息,并对所述调用信息进行处理得到调用链路信息,包括:采集所述调用任务过程中的调用信息,并通过节点及链路ID对所述调用信息进行标识得到标识调用信息;设置所述标识调用信息中所述节点的上下游关系得到调用链路信息。5.根据权利要求1所述的方法,其特征在于,所述对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行归并以生成数据流转链路图,包括:依次对所述第一上传信息、所述第二上传信息以及所述链路上传信息进行解析得到第一上传数据组、第二上传数据组以及链路上传数据组;将所述第一上传数据组、所述第二上传数据组以及所述链路上传数据组中的数据类别、数据标识、数据分类信息以及数据分级信息进行比对得到比对结果;若所述比对结果为预设...

【专利技术属性】
技术研发人员:莫波刘小龙
申请(专利权)人:深圳红途科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1