System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种智能血缘数据解析和呈现方法技术_技高网

一种智能血缘数据解析和呈现方法技术

技术编号:40750380 阅读:2 留言:0更新日期:2024-03-25 20:06
本发明专利技术涉及数据查询解析方法领域,具体涉及一种智能血缘数据解析和呈现方法,包括步骤:S1,通过采集模块自动采集元数据存储至元数据库;S2,在数据清洗加工过程中,通过配置调度程序,以SQLParser自动解析数据的表级和字段级血缘关系。本发明专利技术针对关系型数据库SQL、大数据场景SQL解析,覆盖全面,适用性广,实现快速的数据溯源追溯。

【技术实现步骤摘要】

本专利技术涉及数据查询解析方法领域,具体涉及一种智能血缘数据解析和呈现方法


技术介绍

1、随着企业信息化和数字化的大力发展,企业数据资产日益庞大,数据中台和数据仓库构建越来越复杂。在企业数据治理和数据生产活动中常常遇到数据溯源困难,数据模型修改导致业务分析困难等难题,此类问题归根结底是由于数据血缘分析不足造成的,只有强化数据血缘关系,才能帮助企业更好的发挥数据价值。

2、在数据仓库构建的过程中,血缘关系一般是指表级和字段级,其能清晰展现数据加工处理逻辑脉络,快速定位数据异常字段影响范围,准确圈定最小范围数据回溯,降低了理解数据和解决数据问题的成本。同时数据血缘关系可与数据质量监控系统进行完美的整合,重要数据质量检测异常结果可通过数据血缘关系直接定位影响范围。拥有良好的血缘关系系统,不仅有利于数据分析师对业务场景的梳理,还极大帮助对其数仓分层的构建,同时对企业数据质量控制方面起到很好的朔源作用,对构造数据链路图,监控数据变化起到很好的辅助作用。

3、针对数据关系解析,公开号cn114168600a的文献,公开了一种sql语句血缘关系的解析方法和系统,其中,所述方法包括以下步骤:获取待处理sql语句;采用sql解析工具对待处理sql语句进行解析前置处理以得到标准sql语句;对标准sql语句进行解析以得到对应的抽象语法树对象;对抽象语法树对象进行处理以得到标准语法树对象;对标准语法树对象进行处理以得到对应的血缘关系。能够通过sql解析工具直接得到sql语句的血缘关系,方法简单、易于实现。

4、但是,现有方法在数据治理领域数据血缘关系的全面性差,现有技术或方法更多是聚焦在sql血缘关系解析上,且该类解决方法的兼容性存在很大问题,一般对传统关系型数据库如oracle、mysql等支持较好,但是对于hive sql、spark sql和flink sql等场景支持较差或者无法满足。


技术实现思路

1、本专利技术意在提供一种智能血缘数据解析和呈现方法,以能够从数据采集、数据加工、数据交换、程序开发、调度执行、人工补录、可视化呈现和下钻分析等多种角度,多维度多层次实现全面智能的血缘数据解析和呈现,具有相当的实用价值。

2、本方案中的智能血缘数据解析和呈现方法,包括步骤:

3、s1,通过采集模块自动采集元数据存储至元数据库;

4、s2,在数据清洗加工过程中,通过配置调度程序,以sqlparser自动解析数据的表级和字段级血缘关系,通过sqlparser解析血缘关系的步骤如下:

5、s2.1,数据库特征库构建,预先对多个类型数据库之间不同关键字进行梳理汇总,构建一个能够快速识别数据库类型的特征库;

6、s2.2,从etl任务中获取相应的sql脚本语句,将sql脚本语句传入sqlparser解析方法,sqlparser解析方法实现成一个java函数,将sql脚本语句以字符串形式当成参数传给sqlparser解析函数,实现解析调用;

7、s2.3,对传入的sql脚本语句自动提取sql语句,对sql语句进行预处理,将复合型的sql语句以分号标识进行分割,形成多条可执行的简单型sql语句,循环遍历解析简单型sql语句;

8、s2.4,于预先形成的特征库智能识别数据库引擎类型,选择正确的数据库解析方法,解析当前sql脚本语句的类型,识别出select语句、update语句、create table语句、insert语句、或者定制语句,根据不同的引擎类型调用对应的解析策略;

9、s2.5,表级血缘关系解析,对数据开发过程中的数据流转语句分层抽取数据,得到来源表和目标表;

10、字段级血缘关系解析,通过解析sql脚本语句获取对应的结果字段resultcolumn,根据字段column的prefix前缀或alias别名,在from clause中查找对应的来源字段source column,从而解析出来源字段source column与目标字段target column的对应关系。

11、本方案的有益效果是:

12、通过从数据采集、数据加工、数据交换、程序开发、调度执行,多维度多层次实现全面智能的血缘数据解析和呈现,并针对关系型数据库sql、大数据场景sql解析,覆盖全面,适用性广,实现快速的数据溯源追溯。

13、进一步,所述s1中,通过插件方式适配多种类型的数据库系统进行元数据的自动采集,基于每种类型数据库系统的特定语法和特征抓取数据库、表、视图、字段信息。

14、有益效果是:通过插件方式适配不同类型的数据库信息,并基于对应的语法和特征进行相关信息抓取,信息抓取更完整,提高不同类型数据库的血缘关系解析的适配性。

15、进一步,所述s2还包括:

16、s2.6,如果from clause中存在子查询,回到s2.5,继续开始递归,直到解析出来源字段source column与目标字段target column的对应关系;

17、s2.7,将解析结果用链表记录下来,最后形成表和字段的血缘关系。

18、有益效果是:通过子查询的判断,并针对子查询进行递归,解析出源字段和目标字段的对于应关系,保证解析结果的完整和完全。

19、进一步,所述s2中,在配置调度程序时,选择对应的程序和表关系、以及表与表的关系,实现表级血缘关系的补充。

20、有益效果是:在配置调度程序时进行相应关系的补充,提高自动解析程序进行血缘关系解析结果的准确性。

21、进一步,还包括步骤:

22、s3,创建血缘关系维护入口,在创建数据加工程序时,选择对应的程序和表的对应关系,以对非加工程序场景的数据血缘关系,通过后期维护血缘关系方式实现补充和修正。

23、有益效果是:创建维护入口,以便于后续进行血缘关系的补充和修正,提高血缘关系库的完整性。

24、进一步,所述s3中,所述加工程序包括多种输入表和多种输出表,按固定规则对应和存入表级的血缘关系数据,当为表级关系录入时,选择来源库、来源表和目标库、目标表,并存入表级关系数据;

25、当为字段级关系录入时,选择来源库、来源表、来源字段和目标库、目标表、目标字段,并存入字段级关系数据。

26、有益效果是:在血缘关系的补充和修正过程中,根据表级关系和字段级关系存入对应的关系数据,提高血缘关系的完善性。

27、进一步,还包括步骤:

28、s4,通过可视化图表方式呈现血缘关系网络,可视化图表包括直接读取血缘解析数据和根据标准化字段自动从元数据中全字段匹配查找关联表信息。

29、有益效果是:以可视化图表综合形成血缘关系图,方便用户快速查询和追溯数据的链路和源头。

30、进一步,在可视化的血缘关系网络上,添加节点标签、备注信息、颜色标注,以在选择对应的字段时基于该字段进行血缘关系下钻,本文档来自技高网...

【技术保护点】

1.一种智能血缘数据解析和呈现方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种智能血缘数据解析和呈现方法,其特征在于:所述S1中,通过插件方式适配多种类型的数据库系统进行元数据的自动采集,基于每种类型数据库系统的特定语法和特征抓取数据库、表、视图、字段信息。

3.根据权利要求2所述的一种智能血缘数据解析和呈现方法,其特征在于:所述S2还包括:

4.根据权利要求3所述的一种智能血缘数据解析和呈现方法,其特征在于:所述S2中,在配置调度程序时,选择对应的程序和表关系、以及表与表的关系,实现表级血缘关系的补充。

5.根据权利要求4所述的一种智能血缘数据解析和呈现方法,其特征在于:还包括步骤:

6.根据权利要求5所述的一种智能血缘数据解析和呈现方法,其特征在于:所述S3中,所述加工程序包括多种输入表和多种输出表,按固定规则对应和存入表级的血缘关系数据,当为表级关系录入时,选择来源库、来源表和目标库、目标表,并存入表级关系数据;

7.根据权利要求1-6任一项所述的一种智能血缘数据解析和呈现方法,其特征在于:还包括步骤:

8.根据权利要求7所述的一种智能血缘数据解析和呈现方法,其特征在于:在可视化的血缘关系网络上,添加节点标签、备注信息、颜色标注,以在选择对应的字段时基于该字段进行血缘关系下钻,只展现该字段的血缘关系图。

...

【技术特征摘要】

1.一种智能血缘数据解析和呈现方法,其特征在于,包括步骤:

2.根据权利要求1所述的一种智能血缘数据解析和呈现方法,其特征在于:所述s1中,通过插件方式适配多种类型的数据库系统进行元数据的自动采集,基于每种类型数据库系统的特定语法和特征抓取数据库、表、视图、字段信息。

3.根据权利要求2所述的一种智能血缘数据解析和呈现方法,其特征在于:所述s2还包括:

4.根据权利要求3所述的一种智能血缘数据解析和呈现方法,其特征在于:所述s2中,在配置调度程序时,选择对应的程序和表关系、以及表与表的关系,实现表级血缘关系的补充。

5.根据权利要求4所述的一种智能血缘数据...

【专利技术属性】
技术研发人员:鲜利罗登亮刘赟潘切强王林
申请(专利权)人:中国汽车工程研究院股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1