一种纠错重启以及自动判断启动的ETL调度系统及方法技术方案

技术编号:8562910 阅读:221 留言:0更新日期:2013-04-11 04:32
本发明专利技术公开了一种纠错重启以及自动判断启动的ETL调度方法及系统,本发明专利技术的系统结构包括业务系统数据库服务器、数据仓库服务器、ETL调度监控服务器、ETL调度平台服务器,本发明专利技术的方法是将数据仓库ETL任务分为若干主题任务,每个主题任务包含若干子任务,按预设执行顺序配置信息以及前置关联子任务成功执行完成时间自动判断,执行后续子任务,当子任务执行发生异常后,根据子任务关联关系停止后续关联子任务的执行,并记录异常子任务,以多次自动重启的方式,只对异常子任务及相关联后续子任务进行处理;本发明专利技术解决ETL任务调度中由于前置子任务出错时而后续子任务依然执行的问题,提高任务执行效率,减少人工干预,减少运行损耗。

【技术实现步骤摘要】
—种纠错重启以及自动判断启动的ETL调度系统及方法
本专利技术属于数据仓库
,特别是一种纠错重启以及自动判断启动的ETL调 度系统及方法。
技术介绍
随着数据仓库技术的普及和深化,构建数据仓库的核心技术ETL工具也逐步地完 善且多样化,ETL在数据仓库构建中主要承担着数据抽取、加载、转换的角色,并负责系统程 序调度控制和资源分配,直接关系着数据仓库构建实施的成败。目前信息价值日益体现,尤其是具有大量数据记录的行业。成功的数据仓库对企 业的发展十分重要,银行、移动电信、保险、电子商务运营商的大数据特性决定了这些行业 极为注重数据仓库的构建及技术实施策略。目前的实施策略大体可以概括如下1、根据任务依赖关系设定调度顺序,依次完成系统调度任务;在调度过程中有管理人 员人工监控,出现异常进行人工操作重启任务。2、在依赖关系设定调度顺序的基础上,根据各独立任务的关系设定独立线程定时 定点调度,并进行任务监控、人工排错及重启调度。以上情况,都存在完全依赖人工处理的问题,而且还存在由于异常发生不能被及 时处理而使系统继续运行产生错误结果的情况,并导致系统资源的浪费。专利“一种ETL调度的实现方法及装置”(专利申请号200910203276. 9),在执行 ETL调度包含的若干任务流程时,针对任意一个任务流程,根据预设的配置文件确定任务流 程内包含的各子任务流程的触发方式、执行顺序和相互之间的依赖关系,按照设定的触发 方式触发子任务流程,并按设定的顺序执行已触发的子任务流程,并根据子任务流程之间 的依赖关系,执行依赖已完成子任务并已触发的后续子任务流程。专利“一种实现ETL调度 的方法及系统”(专利申请号200910137527. 8),根据预设的任务配置文件确定当前需要执 行的任务,所述任务配置文件包括需要执行的任务及各任务之间的依赖关系,并通过获取 应用服务器的资源信息,选定合适的应用服务器来执行任务。这2种专利所提供的方法都使各任务之间的业务逻辑清晰、业务功能明确,但对 于任务或子任务在执行过程中异常终止后如何处理,仍是采用常用的人工重新启动的方 法,这没有良好的解决ETL的运行效率和运行损耗的问题。
技术实现思路
本专利技术的目的在于提供一种能够解决ETL任务调度中由于前置子任务出错时而 后续子任务依然执行的问题,提高任务执行效率,有利于减少人工干预,减少运行损耗的纠 错重启以及自动判断启动的ETL调度系统及方法。实现本专利技术目的的技术解决方案为一种纠错重启以及自动判断启动的ETL调度系统,包括业务系统数据库服务器、数据 仓库服务器、ETL调度监控服务器、ETL调度平台服务器;数据仓库服务器包括任务配置存储器、数据仓库数据存储器、ETL任务处理器、执行记录存储器,ETL任务处理器与数据仓库 数据存储器和执行记录存储器相连;ETL调度监控服务器包括任务执行监控处理器、任务 异常信息存储器、异常信息发送器,任务异常信息存储器与任务执行监控处理器和异常信 息发送器相连;ETL调度平台服务器包括启动判断处理器、任务启动处理器,启动判断处理 器与任务启动处理器相连;其中,数据仓库服务器的ETL任务处理器与业务系统数据库服 务器和ETL调度平台服务器的任务启动处理器相连,ETL调度平台服务器的启动判断处理 器分别与数据仓库服务器的任务配置存储器、执行记录存储器、以及ETL调度监控服务器 的异常信息发送器相连,数据仓库服务器的执行记录存储器与ETL调度监控服务器的任务 执行监控处理器相连。一种纠错重启以及自动判断启动的ETL调度方法,包括以下步骤步骤一安排任务、子任务的执行顺序,配置子任务之间的关联关系,把任务执行的先 后顺序,任务包含的子任务,子任务执行的先后顺序,子任务之间的关系保存在数据仓库服 务器的任务配置存储器中,且每个子任务对应数据仓库中的一张表,根据业务需要来安排 任务在执行时间上的先后顺序,安排任务所包含的子任务的执行顺序时,子任务采用以下 原则进行排序(1)当一个子任务与其它子任务之间具有关联关系时,必须在一个或者若干个前置子 任务成功执行之后才能执行该子任务;(2)在此基础上,按照子任务的重要程度进行排序,对业务影响较大的子任务优先执(3)最后根据子任务执行的时间长度进行排序,执行时间较短的子任务优先执行;步骤二 由启动判断处理器从任务配置存储器读取待执行子任务及其前置子任务信 息;由启动判断处理器从执行记录存储器中读取待执行子任务及其前置子任务最近一次成 功执行的结束时间;根据这些信息,通过启动判断处理器的计算,得出待执行子任务的执行 标志,待执行子任务执行标志生成流程如下(1)通过任务配置信息抽取单元,从任务配置存储器获取任务配置信息,通过配置信息 处理单元获取当前待执行的子任务及其前置子任务的信息,将这些信息发送到任务执行标 志计算单元;(2)任务执行信息抽取单元通过配置信息处理单元获取当前待执行的子任务及其前置 子任务的信息,再从执行记录存储器获取当前待执行的子任务及其前置子任务最近一次成 功执行的结束时间;若最近一次成功执行的结束时间不存在,则表明当前子任务是第一次执行,直接得出 “可执行”标志;(3)任务执行标志计算单元计算出待执行子任务所对应的所有前置子任务中最近一次 成功执行的结束时间中的最早值,将这个最早值与待执行子任务的最后一次成功执行结束 时间进行对比,对比方法如下这个最早值若晚于待执行子任务的最后一次成功执行结束时间,则表明待执行子任务 可以执行,返回“可执行”标志;这个最早值若早于待执行子任务的最后一次成功执行结束时间,则表明待执行子任务 的前置子任务中存在着执行异常的情况,返回“不可执行”标志;步骤三将启动判断处理器中任务标志发送单元的执行标志结果发送到任务启动处理 器;任务启动处理器分以下两种情况若任务启动处理器获取“可执行”标志后,将启动指令发送至数据仓库服务器的ETL任 务处理器中,继续执行步骤四;若任务启动处理器获取“不可执行”标志后,不进行动作,跳至步骤二 ;步骤四ETL任务处理器获取启动指令开始执行相应的子任务;gETL任务处理器执行 相应的子任务未发生异常,继续执行步骤五;若ETL任务处理器执行相应的子任务发生异 常而被终止,直接跳到步骤八;步骤五执行记录存储器在子任务开始执行时,记录该子任务的名称,开始时间、把子 任务设置为“fail ”状态,表示此任务还未成功完成,执行记录存储器在子任务成功执行结 束时,记录子任务结束时间,以及更新数据量等信息,把此任务设置为“success”状态,表示 此任务还成功完成;步骤六任务执行监控处理器读取执行记录存储器中的子任务执行情况信息,以便于 系统管理员监控;步骤七如果任务配置存储器中所有任务还未全部执行,则跳至步骤二 ;如果任务配 置存储器中所有任务都已执行,则跳至步骤十三;步骤八执行记录存储器记录该子任务的状态信息,包括开始执行时间、异常终止时 间、运行状态等;步骤九任务执行监控处理器从执行记录存储器中获取任务执行情况信息,并把该异 常子任务的信息放置到任务异常信息存储器中保存,同时对这个异常子任务信息的保存次 数增加一次;步骤十二由于前置任务发生异常,将不会执行与其具有关联关系的后续子任务,跳至 步骤七;步骤十三本文档来自技高网
...

【技术保护点】
一种纠错重启以及自动判断启动的ETL调度系统,其特征在于,包括业务系统数据库服务器、数据仓库服务器、ETL调度监控服务器、ETL调度平台服务器;数据仓库服务器包括任务配置存储器、数据仓库数据存储器、ETL任务处理器、执行记录存储器,ETL任务处理器与数据仓库数据存储器和执行记录存储器相连;ETL调度监控服务器包括任务执行监控处理器、任务异常信息存储器、异常信息发送器,任务异常信息存储器与任务执行监控处理器和异常信息发送器相连;ETL调度平台服务器包括启动判断处理器、任务启动处理器,启动判断处理器与任务启动处理器相连;其中,数据仓库服务器的ETL任务处理器与业务系统数据库服务器和ETL调度平台服务器的任务启动处理器相连,ETL调度平台服务器的启动判断处理器分别与数据仓库服务器的任务配置存储器、执行记录存储器、以及ETL调度监控服务器的异常信息发送器相连,数据仓库服务器的执行记录存储器与ETL调度监控服务器的任务执行监控处理器相连。

【技术特征摘要】
1.一种纠错重启以及自动判断启动的ETL调度系统,其特征在于,包括业务系统数据库服务器、数据仓库服务器、ETL调度监控服务器、ETL调度平台服务器;数据仓库服务器包括任务配置存储器、数据仓库数据存储器、ETL任务处理器、执行记录存储器,ETL任务处理器与数据仓库数据存储器和执行记录存储器相连;ETL调度监控服务器包括任务执行监控处理器、任务异常信息存储器、异常信息发送器,任务异常信息存储器与任务执行监控处理器和异常信息发送器相连;ETL调度平台服务器包括启动判断处理器、任务启动处理器,启动判断处理器与任务启动处理器相连;其中,数据仓库服务器的ETL任务处理器与业务系统数据库服务器和ETL调度平台服务器的任务启动处理器相连,ETL调度平台服务器的启动判断处理器分别与数据仓库服务器的任务配置存储器、执行记录存储器、以及ETL调度监控服务器的异常信息发送器相连,数据仓库服务器的执行记录存储器与ETL调度监控服务器的任务执行监控处理器相连。2.根据权利要求1所述的一种纠错重启以及自动判断启动的ETL调度系统,其特征在于,所述的启动判断处理器包括任务配置信息抽取单元、配置信息处理单元、任务执行信息抽取单元、任务执行标志计算单元、任务标志发送单元,其中配置信息处理单元与任务配置信息抽取单元、任务执行信息抽取单元、任务执行标志计算单元相连,任务执行标志计算单元分别与配置信息处理单元、任务执行信息抽取单元、任务标志发送单元相连。3.一种纠错重启以及自动判断启动的ETL调度方法,其特征在于,包括以下步骤 步骤一安排任务、子任务的执行顺序,配置子任务之间的关联关系,把任务执行的先后顺序,任务包含的子任务,子任务执行的先后顺序,子任务之间的关系保存在数据仓库服务器的任务配置存储器中,且每个子任务对应数据仓库中的一张表,根据业务需要来安排任务在执行时间上的先后顺序,安排任务所包含的子任务的执行顺序时,子任务采用以下原则进行排序 (O当一个子任务与其它子任务之间具有关联关系时,必须在一个或者若干个前置子任务成功执行之后才能执行该子任务; (2)在此基础上,按照子任务的重要程度进行排序,对业务影响较大的子任务优先执行; (3)最后根据子任务执行的时间长度进行排序,执行时间较短的子任务优先执行; 步骤二 由启动判断处理器从任务配置存储器读取待执行子任务及其前置子任务信息;由启动判断处理器从执行记录存储器中读取待执行子任务及其前置子任务最近一次成功执行的结束时间;根据这些信息,通过启动判断处理器的计算,得出待执行子任务的执行标志,待执行子任务执行标志生成流程如下 (1)通过任务配置信息抽取单元,从任务配置存储器获取任务配置信息,通过配置信息处理单元获取当前待执行的子任务及其前置子任务的信息,将这些信息发送到任务执行标志计算单元; (2)任务执行信息抽取单元通过配置信息处理单元获取当前待执行的子任务及其前置子任务的信息,再从执行记录存储器获取当前待执行的子任务及其前置子任务最近一次成功执行的结束时间; 若最近一次成功执行的结束时间不存在,则表明当前子任务是第一次执行,直接得出“可执行”标志;(3)任务执行标志计算单元计算出待执行子任务所对应的所有前置子任务中最近一次成功执行的结束时间中的最早值,将这个最早值与待执行子任务的最后一次成功执行结束时间进行对比,对比方法如下 这个最早值若晚于待执行子任务的最后一次成功执行结束时间,则表明待执行子任务可以执行,返回“可执行”标志; 这个最早值若早于待执行子任务的最后一次成功执行结束时间,则表明待执行子任务的前置子任务中存在着执行异常的情况,返回“不可执行”标志; 步骤三将启动判断处理器中任务标志发送单元的执行标志结果发送到任务启动处理器;任务启动处理器分以下两种情况 若任...

【专利技术属性】
技术研发人员:何昌桃黄建鹏徐晓冬陈静
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1