The present invention provides a method and apparatus for incremental data processing, to guarantee the data integrity and accuracy, improve the processing efficiency of business data, reduce storage space, improve efficiency, and greatly saves the cluster resources. The method for processing the business data, each business has a predetermined deadlines and each business data set includes one or more data elements, each data element is provided with a creation date, the method includes: obtaining the business deadline M; all data elements of business data read the corresponding centralized creation date for business recently M+N units of time, and in accordance with the business logic processing preset data elements; when creating the first time the creation time of the read data elements in M+N is a unit of time in front, then building the unit of time incremental data partitions and insert data elements after processing to the incremental data partition.
【技术实现步骤摘要】
本专利技术涉及计算机
,特别地涉及一种增量式数据处理的方法和装置。
技术介绍
随着互联网及电商的快速发展、业务形式的多样化以及人们对互联网依赖程度的增加,企业数据仓库所承载的数据量呈现爆发式的增长,海量数据的存储与加工也对集群资源带来了非常大的挑战。另外,某个业务流程,可能经查出现各种“意外”,导致某个环节重新进行或者长时间锁定,需要跨天甚至跨多天才能完成。但是有些事实表往往不需要保留流程细节,尤其不需要保留错误的细节,只需要保留某个业务单号最终的现象。因此,高效地针对跨业务线、跨多天、常反复进行的业务进行加工和存储,不仅能够极大地节省集群资源,也能使后续业务系统更清晰地了解数据的组织结构以及使用方法。以仓储系统中订单在库房的生产过程为例,用户下单,订单下传到库房,会经历仓库管理系统WMS(WarehouseManagementSystem的缩写)接收--定位--分配--打印--拣货--复核--打包--派工等一系列流程,每一个流程 ...
【技术保护点】
一种增量式数据处理的方法,用于对业务数据进行处理,每个业务具有预定的完成期限且每个业务的数据集包括一个或多个数据元素,每个数据元素设有创建日期,所述方法的特征在于,包括:获得该业务的完成期限M,M是正整数,表示完成该业务的单位时间数目;读取该业务对应的业务数据集中创建日期为最近前M+N个单位时间的所有数据元素,并按照预定的业务逻辑加工所述数据元素,其中,N为正数;当所读取的数据元素的创建时间中最早的创建时间是第前M+N个单位时间时,则建立当前时间单位的增量数据分区并且把加工后的数据元素插入到该增量数据分区。
【技术特征摘要】
1.一种增量式数据处理的方法,用于对业务数据进行处理,每个
业务具有预定的完成期限且每个业务的数据集包括一个或多个数据元
素,每个数据元素设有创建日期,所述方法的特征在于,包括:
获得该业务的完成期限M,M是正整数,表示完成该业务的单位
时间数目;
读取该业务对应的业务数据集中创建日期为最近前M+N个单位
时间的所有数据元素,并按照预定的业务逻辑加工所述数据元素,其
中,N为正数;
当所读取的数据元素的创建时间中最早的创建时间是第前M+N
个单位时间时,则建立当前时间单位的增量数据分区并且把加工后的
数据元素插入到该增量数据分区。
2.根据权利要求1所述的方法,其特征在于,还包括:
当所读取的数据元素的创建时间中最早的创建时间不是第前
M+N个单位时间时,把加工后的数据元素插入到预设的暂存数据分区。
3.根据权利要求1所述的方法,其特征在于,所述单位时间是日,
且N=1。
4.根据权利要求3所述的方法,其特征在于,利用当前日期前一
日的日期表示来作为所述增量数据分区的标识。
5.根据权利要求4所述的方法,其特征在于,所述日期表示的形
式为yyyy-mm-dd。
6.根据权利要求1所述的方法,其特征在于,所述数据元素是关
系数据库的表,所述业务数据集是表的集合。
7.一种增量式数据处理的装置,用于对业务数据...
【专利技术属性】
技术研发人员:侍建超,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。