System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据抽取的方法及装置制造方法及图纸_技高网

一种数据抽取的方法及装置制造方法及图纸

技术编号:40603144 阅读:5 留言:0更新日期:2024-03-12 22:08
本发明专利技术涉及一种数据抽取的方法及装置,其中,该方法支持用户自主选择待抽取数据表的分段维度,根据用户选中的分段维度将待抽取数据表按照不同的分段作业数分段抽取到目标数据表,实现数据抽取。由此,本发明专利技术用户能自主选择分段抽取的分段维度,提高分段抽取的灵活性与多样性,根据用户选中的分段维度将待抽取数据表按照不同的分段作业数进行分段抽取,即进行分段抽取时的分段作业数并非固定的,不同的分段维度有不同的分段作业数,保证分段抽取的合理性与数据的连续性,从而提高数据抽取的质量和效率。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种数据抽取的方法及装置


技术介绍

1、随着经济的发展,各行各业所产生和存储的数据量也在快速增长,对数据的分析统计时效性要求也越来越高,如果快速将数据从关系型数据库中的数据表中抽取出来成为至关重要的问题。

2、目前,将数据从关系型数据库中的数据表中抽取出来的方法主要有:全表单线程抽取和分段抽取,其中全表单线程抽取难以保证抽取速度,时间容易拖长,影响数据的时效性,而分段抽取是以固定作业数进行分段抽取,容易造成数据倾斜,数据抽取的质量得不到保证。


技术实现思路

1、本专利技术所要解决的技术问题是:本专利技术提供一种数据抽取的方法及装置,提高数据抽取的质量与效率。

2、为了解决上述技术问题,本专利技术采用的技术方案为:

3、第一方面,本专利技术提供一种数据抽取的方法,包括:

4、获取用户基于待抽取数据表所选中的分段维度;

5、根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表,实现数据抽取。

6、本专利技术的有益效果在于:用户能自主选择分段抽取的分段维度,提高分段抽取的灵活性与多样性,根据用户选中的分段维度将待抽取数据表按照不同的分段作业数进行分段抽取,即进行分段抽取时的分段作业数并非固定的,不同的分段维度有不同的分段作业数,保证分段抽取的合理性与数据的连续性,从而提高数据抽取的质量和效率。

7、可选地,所述获取用户基于待抽取数据表所选择的分段维度包括:

8、实时采集待抽取数据表的元数据信息,根据所述元数据信息计算所述待抽取数据表的得分,当所述得分超过得分阈值时,弹出大数据表提醒并自动增加大数据表提醒个数。

9、根据上述描述可知,通过实时采集待抽取数据表的元数据信息能实时发现大数据表,并弹出大数据表提醒,便于用户了解当前数据表情况,且会自动增加大数据表提醒个数,优化用户体验。

10、可选地,所述元数据信息包括字段数量、字段类型、数据记录数和数据存储大小。

11、根据上述描述可知,元数据信息包括字段数量、字段类型、数据记录数和数据存储大小,即从多个维度判断待抽取数据表是否是大数据表,提高发现大数据表的准确性。

12、可选地,所述分段维度包括离散分段维度、数值分段维度和时间分段维度,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

13、当所述分段维度为离散分段维度时,获取所述离散分段维度的离散类型字段,计算所述离散类型字段的数量,当所述数量不超过第一阈值时,基于所述数量计算离散分段作业数,且所述离散分段作业数不超过分段阈值,根据所述离散分段作业数将所述待抽取数据表分段抽取至目标数据表;

14、当所述分段维度为数值分段维度时,获取所述数值范围维度的数值类型字段,计算所述数值类型字段的数值最大值和数值最小值,在所述数值最大值和所述数值最小值的范围内计算数值分段作业数,且所述数值分段作业数不超过分段阈值,根据所述数值分段作业数将所述待抽取数据表分段抽取至目标数据表;

15、当所述分段维度为时间分段维度时,获取所述时间范围维度的时间类型字段,计算所述时间类型字段的时间最大值和时间最小值,在所述时间最大值和所述时间最小值的范围内计算时间分段作业数,且所述时间分段作业数不超过分段阈值,根据所述时间分段作业数将所述待抽取数据表分段抽取至目标数据表。

16、根据上述描述可知,分段维度包括离散分段维度、数值分段维度和时间分段维度,分段维度的多样性使得用户能根据实际需求选择适合的分段维度,且不同的分段维度会按照选择的类型字段自动计算合适的分段作业数,保证分段作业数的合理性,从而提高将待抽取数据表分段抽取到目标数据表的效率和质量。

17、可选地,所述计算所述离散类型字段的数量包括:

18、当所述数量大于第一阈值且小于第二阈值时,弹出不建议使用所述离散类型字段的提示,当所述数量大于第二阈值时,弹出不能使用所述离散类型字段的提示。

19、根据上述描述可知,通过计算离散类型字段的数量能给予用户使用该离散类型字段的相关提示,如不建议使用该离散类型字段的提示、不能使用离散类型字段的提示,从而辅助用户选择合适的离散类型字段,优化用户体验的同时,提高分段抽取的合理性与效率。

20、可选地,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

21、获取用户基于待抽取数据表所输入的并行作业数;

22、根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数进行分段,并根据所输入的并行作业数将其分段抽取至目标数据表。

23、根据上述描述可知,将待抽取数据表按照不同的分段作业数抽取时,能设置并行作业数,从而提高分段抽取的效率,且并行作业数支持用户自定义,优化用户体验。

24、可选地,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

25、根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数通过etl引擎分段抽取至目标数据表,并根据所述分段维度生成sql查询语句。

26、根据上述描述可知,通过etl引擎实现分段抽取,且能根据分段维度生成sql查询语句,便于后续查询与回溯。

27、可选地,所述实现数据抽取包括:

28、计算所述待抽取数据表的第一数据总量和所述目标数据表的第二数据总量;

29、根据主键随机抽取所述待抽取数据表的第一字段内容和所述目标数据表的第二字段内容;

30、当所述第一数量总数和所述第二数量总数相同且所述第一字段内容与所述第二字段内容相同时,数据抽取成功,否则,数据抽取失败。

31、根据上述描述可知,以待抽取数据表的第一数据总数和目标数据表的第二数据总数以及随机抽取的待抽取数据表的第一字段内容和目标数据表的第二字段内容作为数据抽取成功与否的判断条件,保证判断的全面性与准确性。

32、可选地,所述分段阈值为10。

33、第二方面,本专利技术提供一种数据抽取的装置,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的一种数据抽取的方法。

34、其中,第二方面所提供的一种数据抽取的装置所对应的技术效果参照第一方面所提供的一种数据抽取的方法的相关描述。

本文档来自技高网...

【技术保护点】

1.一种数据抽取的方法,其特征在于,包括:

2.如权利要求1所述的一种数据抽取的方法,其特征在于,所述获取用户基于待抽取数据表所选择的分段维度包括:

3.如权利要求2所述的一种数据抽取的方法,其特征在于,所述元数据信息包括字段数量、字段类型、数据记录数和数据存储大小。

4.如权利要求1所述的一种数据抽取的方法,其特征在于,所述分段维度包括离散分段维度、数值分段维度和时间分段维度,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

5.如权利要求4所述的一种数据抽取的方法,其特征在于,所述计算所述离散类型字段的数量包括:

6.如权利要求1所述的一种数据抽取的方法,其特征在于,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

7.如权利要求1所述的一种数据抽取的方法,其特征在于,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

8.如权利要求1所述的一种数据抽取的方法,其特征在于,所述实现数据抽取包括:

9.如权利要求4所述的一种数据抽取的方法,其特征在于,所述分段阈值为10。

10.一种数据抽取的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,且特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述方法。

...

【技术特征摘要】

1.一种数据抽取的方法,其特征在于,包括:

2.如权利要求1所述的一种数据抽取的方法,其特征在于,所述获取用户基于待抽取数据表所选择的分段维度包括:

3.如权利要求2所述的一种数据抽取的方法,其特征在于,所述元数据信息包括字段数量、字段类型、数据记录数和数据存储大小。

4.如权利要求1所述的一种数据抽取的方法,其特征在于,所述分段维度包括离散分段维度、数值分段维度和时间分段维度,所述根据所选中的分段维度将所述待抽取数据表按照不同的分段作业数分段抽取至目标数据表包括:

5.如权利要求4所述的一种数据抽取的方法,其特征在于,所述计算所述离散类型字段的数量包括:

6.如权利要求1所述...

【专利技术属性】
技术研发人员:李喆石福仁叶建红涂平严拱石陈绍倩黄炜张兴江勇李元
申请(专利权)人:福建大数据一级开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1