关联关系提取方法、装置和计算机设备制造方法及图纸

技术编号:34951899 阅读:8 留言:0更新日期:2022-09-17 12:29
本申请涉及一种关联关系提取方法、装置、计算机设备、存储介质和计算机程序产品,涉及大数据技术领域,可用于金融科技领域或其他相关领域。所述方法包括:对目标系统的脚本进行识别,得到脚本包含的多个SQL语句;解析SQL语句中目标字段对应的源表位置处的源表信息;在源表信息是查找语句的情况下,确定目标字段与预设临时表的第一关联关系;解析查找语句中目标字段对应的源表位置处的源表信息,直到解析出的目标字段对应的源表信息是源数据表时,确定查找语句的目标表位置的预设临时表与源数据表的第二关联关系;在第一关联关系与第二关联关系中,提取目标字段与源数据表作为目标系统的目标关联关系,达到提取所有字段的准确关联关系的效果。联关系的效果。联关系的效果。

【技术实现步骤摘要】
关联关系提取方法、装置和计算机设备


[0001]本申请涉及大数据
,特别是涉及一种关联关系提取方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着大数据平台技术的发展,海量的数据经过加工处理可以转换为用户需要的信息集合,也可以被用于大数据加工处理的多种场景,数据的流向较为复杂,数据链路越来越长,数据之间关系错综。尤其是在金融科技领域,分析各个系统间的数据流向是进行各个系统间影响性分析的重要渠道。复杂系统的源数据表中字段信息可能被多个子系统使用,如何准确地获取数据信息在各个系统之间的流向关系是迫切需要解决的问题。
[0003]传统技术中,一般是通过数据表级关系定位数据流向,但是由于源数据表中包含多段数据,而目标表中的数据与源表中的数据并不是完全相同,导致扩大数据流向的范围,使数据影响性分析的准确度降低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高数据影响性分析的准确度的关联关系提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种关联关系提取方法。所述方法包括:
[0006]对目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句;
[0007]解析所述SQL语句中目标字段对应的源表位置处的源表信息;
[0008]在所述源表信息是查找语句的情况下,确定所述目标字段与预设临时表的第一关联关系;解析所述查找语句中目标字段对应的源表位置处的源表信息,直到解析出的所述目标字段对应的源表信息是源数据表时,确定所述查找语句的目标表位置的预设临时表与所述源数据表的第二关联关系;
[0009]在所述第一关联关系与所述第二关联关系中,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系。
[0010]在其中一个实施例中,所述对目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句,包括:
[0011]根据预设正则表达式,对所述目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句。
[0012]在其中一个实施例中,所述方法还包括:
[0013]将所述目标字段与所述源数据表对应的目标关联关系添加至预设的字段级血缘关系数据库。
[0014]在其中一个实施例中,所述方法还包括:
[0015]对所述SQL语句进行解析,得到所述源数据表的别名、所述预设临时表别名;
[0016]所述在所述第一关联关系与所述第二关联关系中,提取所述目标字段与所述源数
据表作为所述目标系统的目标关联关系,包括:
[0017]在所述第一关联关系与所述第二关联关系中,根据第一预设临时表的别名以及所述源数据表的别名,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系。
[0018]在其中一个实施例中,所述方法还包括:
[0019]获取所述目标系统的脚本的第一数量以及各所述脚本对应的SQL语句的数量;
[0020]根据各所述脚本对应的SQL语句的数量以及预设并行任务的数量,计算各所述预设并行任务的平均处理SQL语句数量;
[0021]按照各所述脚本对应的SQL语句的数量以及所述平均处理SQL语句数量,将各所述脚本对应的SQL语句平均划分至各预设并行任务。
[0022]在其中一个实施例中,所述SQL语句的目标表位置处包括多个字段,所述方法还包括:
[0023]根据预设的基于先验知识的搜索算法,对所述字段对应的源表位置包含的源表信息进行搜索,在所述源表信息是源数据表的情况下,提取所述字段与所述源数据表作为所述目标系统的目标关联关系。
[0024]第二方面,本申请还提供了一种关联关系提取装置。所述装置包括:
[0025]识别模块,用于对目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句;
[0026]第一解析模块,用于解析所述SQL语句中目标字段对应的源表位置处的源表信息;
[0027]第二解析模块,用于在所述源表信息是查找语句的情况下,确定所述目标字段与预设临时表的第一关联关系;解析所述查找语句中目标字段对应的源表位置处的源表信息,直到解析出的所述目标字段对应的源表信息是源数据表时,确定所述查找语句的目标表位置的预设临时表与所述源数据表的第二关联关系;
[0028]提取模块,用于在所述第一关联关系与所述第二关联关系中,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系。
[0029]在其中一个实施例中,所述识别模块具体用于:
[0030]根据预设正则表达式,对所述目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句。
[0031]在其中一个实施例中,所述关联关系提取装置还包括:
[0032]添加模块,用于将所述目标字段与所述源数据表对应的目标关联关系添加至预设的字段级血缘关系数据库。
[0033]在其中一个实施例中,所述关联关系提取装置还包括:
[0034]别名获取模块,用于对所述SQL语句进行解析,得到所述源数据表的别名、所述预设临时表别名;
[0035]所述提取模块,具体用于:
[0036]在所述第一关联关系与所述第二关联关系中,根据第一预设临时表的别名以及所述源数据表的别名,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系。
[0037]在其中一个实施例中,所述关联关系提取装置还包括:
[0038]并发任务设置模块,用于获取所述目标系统的脚本的第一数量以及各所述脚本对
应的SQL语句的数量;根据各所述脚本对应的SQL语句的数量以及预设并行任务的数量,计算各所述预设并行任务的平均处理SQL语句数量;按照各所述脚本对应的SQL语句的数量以及所述平均处理SQL语句数量,将各所述脚本对应的SQL语句平均划分至各预设并行任务。在其中一个实施例中,所述SQL语句的目标表位置处包括多个字段,所述关联关系提取装置还包括:
[0039]搜索模块,用于根据预设的基于先验知识的搜索算法,对所述字段对应的源表位置包含的源表信息进行搜索,在所述源表信息是源数据表的情况下,提取所述字段与所述源数据表作为所述目标系统的目标关联关系。
[0040]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0041]对目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句;
[0042]解析所述SQL语句中目标字段对应的源表位置处的源表信息;
[0043]在所述源表信息是查找语句的情况下,确定所述目标字段与预设临时表的第一关联关系;解析所述查找语句中目标字段对应的源表位置处的源表信息,直到解析出的所述目标字段对应的源表信息是源数据表时,确定所述查找语句的目标表位置的预设临时表与所述源数据表的第二关联关系;
[0044]在所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关联关系提取方法,其特征在于,所述方法包括:对目标系统的脚本进行识别,得到所述脚本包含的多个结构化查询语言SQL语句;解析所述SQL语句中目标字段对应的源表位置处的源表信息;在所述源表信息是查找语句的情况下,确定所述目标字段与预设临时表的第一关联关系;解析所述查找语句中目标字段对应的源表位置处的源表信息,直到解析出的所述目标字段对应的源表信息是源数据表时,确定所述查找语句的目标表位置的预设临时表与所述源数据表的第二关联关系;在所述第一关联关系与所述第二关联关系中,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系。2.根据权利要求1所述的方法,其特征在于,所述对目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句,包括:根据预设正则表达式,对所述目标系统的脚本进行识别,得到所述脚本包含的多个SQL语句。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:将所述目标字段与所述源数据表对应的目标关联关系添加至预设的字段级血缘关系数据库。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述SQL语句进行解析,得到所述源数据表的别名、所述预设临时表别名;所述在所述第一关联关系与所述第二关联关系中,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系,包括:在所述第一关联关系与所述第二关联关系中,根据第一预设临时表的别名以及所述源数据表的别名,提取所述目标字段与所述源数据表作为所述目标系统的目标关联关系。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标系统的脚本的第一数量以及各所述脚本对应的SQL语句的数量;根据各所述脚本对应的SQL语句的数量以及预设并行任务的数量,计算各所...

【专利技术属性】
技术研发人员:侯义福聂冬琴赵喆王伟
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1