【技术实现步骤摘要】
一种数据分片抽取方法及装置
本申请涉及网络
,具体涉及一种数据分片抽取方法及装置。
技术介绍
ETL(Extract-Transform-Load,抽取-转换-加载)描述了数据从源端经过抽取(extract)、转换(transform)、加载(load)之后至目的端的过程,实现对企业的业务系统中分散、凌乱、标准不统一的数据的整合,整合后的数据能够为企业的决策提供数据分析和决策的依据。可见实现ETL功能的处理装置是运转各种与数据有关的应用中的基础功能的组件,其起到了为上层应用提供数据支撑的重要作用,因而,ETL的实现过程将在极大程度上决定上层应用的运行。随着数字化技术的发展,数据量愈来愈大,实现ETL的任务过程首先将面临到对海量数据的抽取过程,相关技术中通过单一的查询语句获取数据的过程已无法满足对日益剧增的数据的高效抽取的需求,不仅造成数据抽取效率低下,甚至影响到整个数据整合的进展。
技术实现思路
有鉴于此,本申请提供一种数据分片抽取方法及装置,以解决相关技术中数据查询方法单一、数据抽取效率低
【技术保护点】
1.一种数据分片抽取方法,其特征在于,所述方法包括:/n获取针对待分片数据表中的数据信息的查询语句,所述查询语句包含目标字段、分片依据字段、分片数量和针对所述分片依据字段的计算逻辑;/n执行所述查询语句,以基于所述计算逻辑确定所述分片依据字段的数据信息对应的计算结果,其中,所述计算结果包括所述分片依据字段的数据信息的正整数形式的求余运算结果,或者所述分片依据字段的数据信息的求余运算结果的正整数值;/n根据计算结果的取值配置所述分片数量的数据抽取任务,以使得所述数据抽取任务并行地对目标字段在所述待分片数据表中对应的数据信息进行抽取。/n
【技术特征摘要】
1.一种数据分片抽取方法,其特征在于,所述方法包括:
获取针对待分片数据表中的数据信息的查询语句,所述查询语句包含目标字段、分片依据字段、分片数量和针对所述分片依据字段的计算逻辑;
执行所述查询语句,以基于所述计算逻辑确定所述分片依据字段的数据信息对应的计算结果,其中,所述计算结果包括所述分片依据字段的数据信息的正整数形式的求余运算结果,或者所述分片依据字段的数据信息的求余运算结果的正整数值;
根据计算结果的取值配置所述分片数量的数据抽取任务,以使得所述数据抽取任务并行地对目标字段在所述待分片数据表中对应的数据信息进行抽取。
2.根据权利要求1所述方法,其特征在于,所述计算逻辑,包括按照任意顺序执行下述一个或多个运算:
取整数运算、取绝对值运算和求余运算。
3.根据权利要求1所述方法,其特征在于,还包括:
将所述分片数量的数据抽取任务下发至多个处理节点,以由多个处理节点对不超过阈值的数据抽取任务进行处理;
汇总所述多个处理节点的抽取结果。
4.根据权利要求1所述方法,其特征在于,在所述获取针对待分片数据表中的数据信息的查询语句之前,还包括:
在所述待分片数据表首次被执行数据抽取任务的情况下,将记载所述待分片数据表中的全量数据信息的数据表确定为待分片的数据表;
在所述待分片数据表非首次被执行数据抽取任务的情况下,确定所述待分片数据表中的预设时长内新增的数据信息;将记载所述新增的数据信息的数据表确定为待分片的数据表。
5.根据权利要求1所述方法,其特征在于,在所述获取针对待分片数据表中的数据信息的查询语句之前,还包括:
判断数据缓存存储区中是否存在与接收到的查询语句匹配的执行计划,若存在,则直接调用所述执行计划进行数据查询;否则,执行对所述查询语句的校验过程,以基于完成校验过程的查询语句进行数据查询。
6.根据权利要求1所述方法,其特征在于,所述分片依据字段为所述待分片数据表中的任一标签信息对应的数据信息。
7.一种数据分片抽取装置,其特征在于,所述装置包括:
获取单元,获取针对待分片数据表中的数据信息的查询...
【专利技术属性】
技术研发人员:江峰,褚占峰,张亮,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。