自动化数据回溯的方法与系统技术方案

技术编号:17211769 阅读:30 留言:0更新日期:2018-02-07 23:00
本发明专利技术提供一种数据回溯的方法和系统,能够自动化调用数据回溯任务执行,合理利用集市资源;且可以对数据回溯任务进行自动监控与错误信息的自动推送。该方法包括:数据集市客户端把获取的数据回溯任务放入任务池;所述数据集市客户端定期检测数据集市服务器的资源占用情况,当资源占用情况不超过占用阈值时,所述数据集市客户端串行地提交任务池中的数据回溯任务;当资源占用情况超过占用阈值时,所述数据集市客户端中断当前数据回溯任务的提交和/或请求所述数据集市服务器中断当前数据回溯任务的执行,并将当前中断的数据回溯任务放回任务池中;数据集市服务器将已经回溯的数据保存至数据集市。

The method and system of automatic data backtracking

The invention provides a data backtracking method and system, which can automatically invoke data backtracking task execution, make reasonable use of market resources, and automatically monitor and erroneous information of data backtracking tasks. The method comprises: a data mart client to get the data back into the task task pool; the data mart client regularly testing data mart server resource usage, the resource occupancy does not exceed the occupancy threshold, the serial data mart client submit task pool data in the back when the task; resources occupied much more than the threshold, the data mart client interrupt task of current data backtracking submitted and / or request the data mart server interrupts the current data back task execution, and the current interruption data back back to the pool of tasks in the task; data saved to a data mart data mart server will have backtracking.

【技术实现步骤摘要】
自动化数据回溯的方法与系统
本专利技术涉及计算机技术及软件领域,尤其涉及一种自动化数据回溯的方法和系统。
技术介绍
在当前数据集市应用场景中,经常会出现需要回溯当月至今或者整月的历史数据的情况。这是由于业务源系统中的数据会不定期、无规律的更新,因此要取得最准确的数据必须进行数据回溯。通过回溯方法能够得到最精准的数据,为决策者提供决策信息。该方法在很多大型数据集市(如电信,电力行业等)场景中都有着广泛的应用。图1是现有技术中的数据回溯的通常做法。如图1所示,目前数据回溯主要是将数据抽取脚本上传到数据集市的客户端中,再通过将需要执行的数据抽取分区(通常以日期分区)以变量的形式传入脚本,手动设定每个执行任务的参数,并按需批量执行多个数据抽取任务。执行过程中会根据分区抽取数据并进行计算,最终计算结果会落地到数据集市的存储空间内。然而这样的数据回溯的方法存在一定的弊端,其一,这种方法会使得数据集市资源紧张,阻塞其他任务执行,影响目标系统数据使用;其二,数据回溯任务产生的错误也难以发现,任务的错误信息也无法捕捉。如何科学的回溯历史数据已成为数据集市中的一个重要议题。
技术实现思路
有鉴于此,本专利技术提供一种数据回溯的方法和系统,能够自动化调用数据回溯任务执行,合理利用集市资源;且可以对数据回溯任务进行自动监控与错误信息的自动推送。为实现上述目的,根据本专利技术的一个方面,提供了一种数据回溯的方法。本专利技术的一种数据回溯的方法包括:数据集市客户端把获取的数据回溯任务放入任务池;所述数据集市客户端定期检测数据集市服务器的资源占用情况,当资源占用情况不超过占用阈值时,所述数据集市客户端串行地提交任务池中的数据回溯任务;当资源占用情况超过占用阈值时,所述数据集市客户端中断当前数据回溯任务的提交和/或请求所述数据集市服务器中断当前数据回溯任务的执行,并将当前中断的数据回溯任务放回任务池中;数据集市服务器将已经回溯的数据保存至数据集市。可选地,所述资源占用情况包括以下一个或多个:CPU使用率、可用内存量、交换区使用情况、网络I/O状况。可选地,所述数据集市客户端串行地提交任务池中的数据回溯任务还包括:定时检测当前提交的数据回溯任务的执行情况,若当前数据回溯任务执行完成,则继续提交下一数据回溯任务,若当前数据回溯任务未完成,则等待提交。可选地,所述方法还包括:数据集市服务器在执行数据回溯任务的过程中,自动校验数据回溯任务的执行结果。可选地,数据集市服务器在执行数据回溯任务的过程中,自动校验数据回溯任务的执行结果还包括:配置错误监控信息,其中错误监控信息中包括:错误类别、错误信息以及处理手段;在执行数据回溯任务的过程中,根据配置的错误监控信息自动校验任务执行结果,若执行失败则根据错误类别分类处理,其中,对于可自动修复的错误,则将数据回溯任务或自动修复参数后的数据回溯任务返回至数据集市客户端,以重新放入任务池等待提交;对于不可自动修复的错误,则将生成错误信息文件推送至监控人员。为实现上述目的,根据本专利技术的另一方面,提供了一种数据回溯的系统。本专利技术的一种数据回溯的系统包括:数据集市客户端、数据集市服务器以及数据集市,其中:所述数据集市客户端定期检测数据集市服务器的资源占用情况,当资源占用情况不超过占用阈值时,所述数据集市客户端串行地提交任务池中的数据回溯任务;当资源占用情况超过占用阈值时,所述数据集市客户端中断当前数据回溯任务的提交和/或请求所述数据集市服务器中断当前数据回溯任务的执行,并将当前中断的数据回溯任务放回任务池中;数据集市服务器将已经回溯的数据保存至数据集市。可选地,所述资源占用情况包括以下一个或多个:CPU使用率、可用内存量、交换区使用情况、网络I/O状况。可选地,所述数据集市客户端串行地提交任务池中的数据回溯任务还包括:定时检测当前提交的数据回溯任务的执行情况,若当前数据回溯任务执行完成,则继续提交下一数据回溯任务,若当前数据回溯任务未完成,则等待提交。可选地,所述数据集市服务器还用于:在执行数据回溯任务的过程中,自动校验数据回溯任务的执行结果。可选地,数据集市服务器在执行数据回溯任务的过程中,自动校验数据回溯任务的执行结果还包括:配置错误监控信息,其中错误监控信息中包括:错误类别、错误信息以及处理手段;在执行数据回溯任务的过程中,根据配置的错误监控信息自动校验任务执行结果,若执行失败则根据错误类别分类处理,其中,对于可自动修复的错误,则将数据回溯任务或自动修复参数后的数据回溯任务返回至数据集市客户端,以重新放入任务池等待提交;对于不可自动修复的错误,则将生成错误信息文件推送至监控人员。根据本专利技术的技术方案,通过检测资源占用情况,从而能够优化管理数据回溯任务的提交和执行,合理利用数据集市资源,防止因数据回溯任务的执行而影响数据集市中优先级更高的其他任务的执行;通过串行提交数据追溯任务,从而能够降低数据集市服务器端压力,防止阻塞现象的发生;通过配置错误监控信息,且当任务异常时立即反馈给监控人员,从而能够对执行过程中出现的错误自动分类,一般错误自行修复后继续执行,严重的不可自动修复的错误直接反馈给监控人员,使错误能够及时得到处理,做到数据回溯任务执行过程中的自动监控与推送错误信息。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是现有技术的数据回溯的方法的主要步骤的示意图;图2是根据本专利技术实施例的数据回溯的方法的主要步骤的示意图;图3是根据本专利技术实施例的数据回溯的方法中串行提交任务的流程示意图;图4是根据本专利技术实施例的数据回溯的方法的主要流程的示意图;图5是根据本专利技术实施例的数据回溯的系统的主要部分的示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本专利技术实施例的数据回溯的方法主要涉及集市客户端(以下简称“集市客户端”)与集市服务器(以下简称“集市服务器”)之间的交互。其中,集市客户端是指提交数据回溯任务的源端,主要用于检测集市服务器当前资源占用情况,选取资源空闲时段执行任务,并处理部分错误任务以及推送错误信息给监控人员;集市服务器是指执行数据回溯任务的终端,例如可以是Hadoop平台,负责执行任务,并将错误任务类型进行分类,并反馈给集市客户端。图2是根据本专利技术实施例的数据回溯的方法的主要步骤的示意图。如图2所示,本专利技术实施例的数据回溯的方法主要包括如下步骤:步骤S21:集市客户端把获取的数据回溯任务放入任务池。首先,根据数据回溯任务需求生成数据回溯任务,并将数据回溯任务放入任务池中等待提交。本步骤的获取数据回溯任务后,从步骤S22开始处理。步骤S22:集市客户端定期检测集市服务器的资源占用情况,当资源占用情况不超过占用阈值时,集市客户端串行地提交任务池中的数据回溯任务;当资源占用情况超过占用阈值时,集市客户端中断当前数据回溯任务的提交和/或请求集市服务器中断当前数据回溯任务的执行,并将当前中断的数据回溯任务放回任务池中。首先,集市客户端启动集市服本文档来自技高网...
自动化数据回溯的方法与系统

【技术保护点】
一种数据回溯的方法,其特征在于,包括:数据集市客户端把获取的数据回溯任务放入任务池;所述数据集市客户端定期检测数据集市服务器的资源占用情况,当资源占用情况不超过占用阈值时,所述数据集市客户端串行地提交任务池中的数据回溯任务;当资源占用情况超过占用阈值时,所述数据集市客户端中断当前数据回溯任务的提交和/或请求所述数据集市服务器中断当前数据回溯任务的执行,并将当前中断的数据回溯任务放回任务池中;数据集市服务器将已经回溯的数据保存至数据集市。

【技术特征摘要】
1.一种数据回溯的方法,其特征在于,包括:数据集市客户端把获取的数据回溯任务放入任务池;所述数据集市客户端定期检测数据集市服务器的资源占用情况,当资源占用情况不超过占用阈值时,所述数据集市客户端串行地提交任务池中的数据回溯任务;当资源占用情况超过占用阈值时,所述数据集市客户端中断当前数据回溯任务的提交和/或请求所述数据集市服务器中断当前数据回溯任务的执行,并将当前中断的数据回溯任务放回任务池中;数据集市服务器将已经回溯的数据保存至数据集市。2.根据权利要求1所述的方法,其特征在于,所述资源占用情况包括以下一个或多个:CPU使用率、可用内存量、交换区使用情况、网络I/O状况。3.根据权利要求1所述的方法,其特征在于,所述数据集市客户端串行地提交任务池中的数据回溯任务还包括:定时检测当前提交的数据回溯任务的执行情况,若当前数据回溯任务执行完成,则继续提交下一数据回溯任务,若当前数据回溯任务未完成,则等待提交。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:数据集市服务器在执行数据回溯任务的过程中,自动校验数据回溯任务的执行结果。5.根据权利要求4所述的方法,其特征在于,数据集市服务器在执行数据回溯任务的过程中,自动校验数据回溯任务的执行结果还包括:配置错误监控信息,其中错误监控信息中包括:错误类别、错误信息以及处理手段;在执行数据回溯任务的过程中,根据配置的错误监控信息自动校验任务执行结果,若执行失败则根据错误类别分类处理,其中,对于可自动修复的错误,则将数据回溯任务或自动修复参数后的数据回溯任务返回至数据集市客户端,以重新放入任务池等待提交;对于不可自动修复的错误,则将生成错误信息文件推送至监控人员。...

【专利技术属性】
技术研发人员:张成
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1