The invention provides a data acquisition method and system based on data table partition, which includes: acquiring data table information to be collected and sliding window; data table information includes: the number of each partition and the corresponding month of each partition; the length of sliding window represents the number of months including the current collection month; and according to sliding. The window and the current collection month determine the month with data and the month without data; the month with data is the month within the sliding window; the month without data is the month outside the sliding window; the collection parameter table is generated according to the number of each collection operation, the number of each division and the corresponding month of each division; and the collection operation is the data. The data of each partition in the table is collected, and the corresponding number of each partition is collected according to the collection parameter table. The invention has the beneficial effects of improving the utilization ratio of resources, the utilization ratio of collection operation and the collection efficiency.
【技术实现步骤摘要】
一种基于数据表分区的数据采集方法及系统
本专利技术涉及数据采集
,尤其涉及一种基于数据表分区的数据采集方法及系统。
技术介绍
在目前的批量数据采集方式中,采用的均为每个采集作业每天运行时,对数据表中固定的分区进行数据采集。这种方式应用于大部分的表,但是对于数据分布不均匀并且按时间维度来变换存储分区的表,现有的数据采集方式存在着效率低下、耗时较长的弊端。因此,如何提高对数据分布不均且按照时间维度变化的数据表的数据采集效率是亟待解决的的技术问题。
技术实现思路
为了解决现有技术中的缺陷,本专利技术提供了一种基于数据表分区的数据采集方法及系统,在对分区的数据分布不均且按照时间维度变化的数据表进行数据采集时,通过引用了滑动窗及动态调整采集参数表,具有提高资源利用率、采集作业的利用率以及采集效率的有益效果。为了实现上述目的,本专利技术提供了一种基于数据表分区的数据采集方法,该方法包括:获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;根据所述采集参数表对各所述分区执行对应编号的采集作业。本专利技术还提供了一种基于数据表分区的数据采集系统,该系统包括:获取单元,用于获取待采集的数据表信息及滑动窗;所述数据表信息 ...
【技术保护点】
1.一种基于数据表分区的数据采集方法,其特征在于,包括:获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;根据所述采集参数表对各所述分区执行对应编号的采集作业。
【技术特征摘要】
1.一种基于数据表分区的数据采集方法,其特征在于,包括:获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;根据所述采集参数表对各所述分区执行对应编号的采集作业。2.根据权利要求1所述的基于数据表分区的数据采集方法,其特征在于,所述根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表,包括:将任选的两个采集作业的编号分配到所述无数据的月份对应的分区;将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区;根据各所述采集作业的编号、各所述分区的编号以及各所述采集作业的编号对应的所述无数据的月份及所述有数据的月份,生成采集参数表。3.根据权利要求2所述的基于数据表分区的数据采集方法,其特征在于,所述将任选的两个采集作业的编号分配到所述无数据的月份对应的分区,包括:当所述无数据的月份分布于所述有数据的月份的两侧时,将所述两个采集作业的编号中的一个编号分配到一侧无数据的月份对应的分区,另一个编号分配到另一侧无数据的月份对应的分区。4.根据权利要求2所述的基于数据表分区的数据采集方法,其特征在于,所述将除了所述两个采集作业的编号之外的采集作业的编号全部分配到所述有数据的月份对应的分区,包括:当所述有数据的月份为跨年的连续月份时,将除了所述两个采集作业的编号之外的一部分采集作业的编号分配到一年份内的有数据的月份对应的分区,另一部分采集作业的编号分配到另一年份内有数据的月份对应的分区。5.根据权利要求1所述的基于数据表分区的数据采集方法,其特征在于,所述根据所述采集参数表对各所述分区执行对应编号的采集作业,包括:根据所述采集参数表,获取各所述采集作业的编号对应的分区;根据所述分区对应的采集作业的编号对各所述分区并行执行数据采集。6.一种基于数据表分区的数据采集系统,其特征在于,包括:获取单元,用于获取待采集的数据表信息及滑动窗;所述数据表信息包括:各分区的编号以及各分区对应的月份;所述滑动窗的长度代表包括当前采集月份在内的月份的个数;有数据的月份及无数据的月份确定单元,用于根据所述滑动窗及当前采集月份确定有数据的月份及无数据的月份;所述有数据的月份为所述滑动窗之内的月份;所述无数据的月份为所述滑动窗之外的月份;采集参数表生成单元,用于根据各采集作业的编号、各所述分区的编号以及各所述分区对应的月份生成采集参数表;所述采集作业为对数据表中的各分区的数据进行采集的操作;采集作业执行单元,用于根据所述采集参数表...
【专利技术属性】
技术研发人员:石宇楠,化金龙,尹杰,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。