System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据血缘与质量的数据最优寻址检索方法及装置制造方法及图纸_技高网

一种基于数据血缘与质量的数据最优寻址检索方法及装置制造方法及图纸

技术编号:40962243 阅读:2 留言:0更新日期:2024-04-18 20:41
本发明专利技术公开一种基于数据血缘与质量的数据最优寻址检索方法及装置,其中,该方法包括:对数据进行统一规划,将数据分析中常用的各类字段进行标注;在数据库中配置若干数据质量稽核任务,针对数据查询涉及用表,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量;对数据血缘关系进行收集,记录血缘关系;血缘关系包括:表血缘、字段血缘和应用字段血缘;在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口。该方法及装置保证查询结果准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理分析领域,尤其是一种基于数据血缘与质量的数据最优寻址检索方法及装置


技术介绍

1、在数据集市和数据仓库等多种数据处理分析的场景中,经常会有些数据存在冗余存储,即多张表内数据接近,可能只是部分字段不同,或是数据统计的时间粒度不同等。

2、有一些数据查询的工具或者软件,可以实现在用户进行数据查询时,根据查询关注的字段来自动匹配合适的表进行数据检索,简化数据分析过程中的开发工作。但这种方案仍然会有问题,在这些数据分析场景中,由于数据来源复杂,数据加工环节众多,导致数据处理各环节中,都存在由于来源数据质量不佳、任务调度不合理、计算资源不足和存储环境异常等各类异常原因,导致各表的数据质量不等。即使同一份数据在多张表内存在部分冗余,但各表的数据质量并不完全一致。

3、当前数据查询的工具或软件,一般只关注最终数据检索涉及的表字段与查询请求中期望的是否一致,但并不关注表中具体查询的数据质量。这些软件只能保证查询不报错,能够进行有效查询,但不能保证查询时检索的表的数据质量可靠,因此无法保证查询结果的准确性。


技术实现思路

1、为解决现有技术存在的上述问题,本专利技术提供一种基于数据血缘与质量的数据最优寻址检索方法及装置。

2、为实现上述目的,本专利技术采用下述技术方案:

3、在本专利技术一实施例中,提出了一种基于数据血缘与质量的数据最优寻址检索方法,该方法包括:

4、对数据进行统一规划,将数据分析中常用的各类字段进行标注;

5、在数据库中配置若干数据质量稽核任务,针对数据查询涉及用表,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量;

6、对数据血缘关系进行收集,记录血缘关系;血缘关系包括:表血缘、字段血缘和应用字段血缘;

7、在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口。

8、进一步地,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量,包括:

9、(1)对于已标注的时间粒度字段,进行数据实时性稽核

10、根据时间粒度对应的时间周期,往后延一定时长进行实时性稽核;

11、使用历史数据的实时统计情况,作为实时性质量评价的依据;

12、对比当前周期的数据量与历史同期的数据量均值,分析数据的实时性;

13、(2)对于已标注的维度字段,进行数据完整性稽核

14、与针对时间粒度统计的过程结合,统计每个时间周期类、各维度字段的完整性情况;

15、稽核维度字段的枚举值是否缺失;

16、统计维度字段各枚举项对应的数据量,根据各枚举项在历史同期的数据量均值,分析数据的完整性;

17、(3)对于已标注的指标与属性字段,进行数据合规性稽核

18、与针对时间粒度统计的过程结合,统计每个时间周期类、各指标字段与属性字段的合规性情况;

19、检查指标字段与属性字段的字段格式、字段长度、字段精度以及字段数值,与标注的字段要求是否一致;若存在不一致的数据,根据异常数据条数在所有数据条数中的占比,分析数据的合规性。

20、进一步地,对数据血缘关系进行收集,记录血缘关系,包括:

21、(1)表血缘与字段血缘收集

22、直接上报数据规划阶段的登记表之间和表字段之间的血缘关系并记录;

23、通过在数据加工流程中进行数据埋点,记录表之间和表字段之间的血缘关系;

24、通过在数据库中配置探针,记录血缘关系;

25、(2)应用字段血缘收集

26、通过上报方式进行收集;

27、在数据规划阶段,登记所有查询涉及的字段,将查询字段作为血缘关系的终点进行登记。

28、进一步地,在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口,包括:

29、(1)在数据查询接口中,通过入参传入查询字段、数据过滤条件、数据分组条件以及数据实时统计规则;

30、(2)从查询入参中,提取查询涉及的所有字段;

31、(3)根据血缘关系进行字段溯源,以应用字段为起点,在血缘链条上检索出查询字段在血缘链条上依赖的所有用表与字段;

32、(4)根据数据质量稽核结果,分析各字段及所在表的数据质量情况;

33、(5)针对每个字段,溯源定位至血缘链条上质量最佳的表;若有多张表的数据质量一致,则选择血缘链条中更靠近应用的表及字段;

34、(6)根据前置溯源与筛选标准,即可命中查询备选用表;

35、(7)若命中结果是同一张表,则使用该表进行数据筛选和分组统计,并响应查询接口;

36、(8)若命中结果是多张表,则将多张表的时间粒度进行统一;将多张表根据维度字段进行自动关联;将多表关联结果,根据查询要求,进行数据筛选和分组统计,并响应查询接口。

37、在本专利技术一实施例中,还提出了一种基于数据血缘与质量的数据最优寻址检索装置,该装置包括:

38、数据规划模块,用于对数据进行统一规划,将数据分析中常用的各类字段进行标注;

39、数据质量稽核模块,用于在数据库中配置若干数据质量稽核任务,针对数据查询涉及用表,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量;

40、数据血缘关系收集模块,用于对数据血缘关系进行收集,记录血缘关系;血缘关系包括:表血缘、字段血缘和应用字段血缘;

41、数据查询模块,用于在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口。

42、进一步地,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量,包括:

43、(1)对于已标注的时间粒度字段,进行数据实时性稽核

44、根据时间粒度对应的时间周期,往后延一定时长进行实时性稽核;

45、使用历史数据的实时统计情况,作为实时性质量评价的依据;

46、对比当前周期的数据量与历史同期的数据量均值,分析数据的实时性;

47、(2)对于已标注的维度字段,进行数据完整性稽核

48、与针对时间粒度统计的过程结合,统计每个时间周期类、各维度字段的完整性情况;

...

【技术保护点】

1.一种基于数据血缘与质量的数据最优寻址检索方法,其特征在于,该方法包括:

2.根据权利要求1所述的基于数据血缘与质量的数据最优寻址检索方法,其特征在于,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量,包括:

3.根据权利要求1所述的基于数据血缘与质量的数据最优寻址检索方法,其特征在于,对数据血缘关系进行收集,记录血缘关系,包括:

4.根据权利要求1所述的基于数据血缘与质量的数据最优寻址检索方法,其特征在于,在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口,包括:

5.一种基于数据血缘与质量的数据最优寻址检索装置,其特征在于,该装置包括:

6.根据权利要求5所述的基于数据血缘与质量的数据最优寻址检索装置,其特征在于,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量,包括:

7.根据权利要求5所述的基于数据血缘与质量的数据最优寻址检索装置,其特征在于,对数据血缘关系进行收集,记录血缘关系,包括:

8.根据权利要求5所述的基于数据血缘与质量的数据最优寻址检索装置,其特征在于,在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口,包括:

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1-4任一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种基于数据血缘与质量的数据最优寻址检索方法,其特征在于,该方法包括:

2.根据权利要求1所述的基于数据血缘与质量的数据最优寻址检索方法,其特征在于,对已标注的不同维度字段、不同时间粒度字段以及不同指标与属性字段下的数据完整性、实时性以及合规性进行稽核,分析数据质量,包括:

3.根据权利要求1所述的基于数据血缘与质量的数据最优寻址检索方法,其特征在于,对数据血缘关系进行收集,记录血缘关系,包括:

4.根据权利要求1所述的基于数据血缘与质量的数据最优寻址检索方法,其特征在于,在数据查询时,根据应用字段血缘进行初步数据寻址,找到查询备选表,根据数据质量对查询备选表进行筛选,找到数据质量最佳的单张或多张表,自动进行数据关联查询与检索,响应查询接口,包括:

5.一种基于数据血缘与质量的数据最优寻址检索装置,其特征在于,该装置包括:

6.根据权利要求5所述的基于数据血缘与质量的数据最优寻址检...

【专利技术属性】
技术研发人员:毛恒
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1