基于大数据平台的HIVE任务调度方法、装置、设备及存储介质制造方法及图纸

技术编号:21736057 阅读:29 留言:0更新日期:2019-07-31 19:11
本发明专利技术公开了一种基于大数据平台的HIVE任务调度方法、装置、设备及存储介质。该方法包括:获取客户端发送的原始HIVE任务,基于原始HIVE任务中的启动文件触发日志程序,获取任务日志表;从待处理HIVE任务中获取目标HIVE任务;采用配置文件读取工具读取目标HIVE任务中的配置文件;若读取成功,则获取目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;若前置任务日志中携带与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务成功完成,执行目标HIVE任务中的业务文件;若业务文件执行成功,则生成任务完成标签,将任务完成标签与自身任务标识关联存储到与目标HIVE任务相对应的目标任务日志中。该方法可提高HIVE任务执行的效率。

HIVE Task Scheduling Method, Device, Equipment and Storage Media Based on Big Data Platform

【技术实现步骤摘要】
基于大数据平台的HIVE任务调度方法、装置、设备及存储介质
本专利技术涉及数据处理
,尤其涉及一种基于大数据平台的HIVE任务调度方法、装置、设备及存储介质。
技术介绍
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HIVE是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。HIVE定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。在Hadoop大数据平台中,HIVE任务的执行相互独立,没有关联与其前置任务,使得在HIVE任务执行过程中,需手动串联HIVE任务之间的执行顺序,影响HIVE任务的执行效率。
技术实现思路
本专利技术实施例提供一种基于大数据平台的HIVE任务调度方法、装置、设备及存储介质,以解决当前HIVE任务不关联其前置HIVE任务而导致任务执行效率较低的问题。一种基于大数据平台的HIVE任务调度方法,包括:获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;采用配置文件读取工具读取所述目标HIVE任务中的配置文件;若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。一种基于大数据平台的HIVE任务调度装置,包括:原始任务获取模块,用于获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;任务日志表获取模块,用于基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;目标任务获取模块,用于基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;配置文件读取模块,用于采用配置文件读取工具读取所述目标HIVE任务中的配置文件;任务标识获取模块,用于若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;前置任务日志获取模块,用于基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;业务文件执行模块,用于若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;任务完成处理模块,用于若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据平台的HIVE任务调度方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据平台的HIVE任务调度方法。上述基于大数据平台的HIVE任务调度方法、装置、设备及存储介质,先通过原始HIVE任务中的启动文件触发日志程序,以获取包含至少一个待处理HIVE任务的任务日志表,以实现对所有未曾处理的HIVE任务的有序管理。再根据待处理HIVE任务的任务处理时间,确定目标HIVE任务,以实现对当前要执行的HIVE任务有序管理。然后,通过配置文件读取工具读取目标HIVE任务的配置文件,以实现对HIVE任务的文件形式进行校验,以保证校验成功的HIVE任务的顺利执行。在配置文件读取成功时,根据该配置文件中的前置任务标识查询前置任务日志,通过识别前置任务日志中是否包含任务完成标签,以实现对HIVE任务的执行逻辑校验,以保证逻辑校验成功的目标HIVE任务的顺利执行。最后,在前置任务日志中包含任务完成标签时,执行目标HIVE任务的业务文件,在业务文件执行成功时生成任务完成标签,将任务完成标签和自身任务标识关联存储到目标任务日志中,有助于后置HIVE任务的顺利执行,实现目标HIVE任务与前置HIVE任务与后置HIVE任务的自动化执行,无需手动串联HIVE任务,提高HIVE任务执行的效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中基于大数据平台的HIVE任务调度方法的一应用环境示意图;图2是本专利技术一实施例中基于大数据平台的HIVE任务调度方法的一流程图;图3是本专利技术一实施例中基于大数据平台的HIVE任务调度方法的另一流程图;图4是本专利技术一实施例中基于大数据平台的HIVE任务调度装置的一示意图;图5是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的基于大数据平台的HIVE任务调度方法,该基于大数据平台的HIVE任务调度方法可应用如图1所示的应用环境中。具体地,该基于大数据平台的HIVE任务调度方法应用在大数据平台系统中,该大数据平台系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现串联HIVE任务,以实现HIVE任务执行的自动化,无需人工串联HIVE任务,提高HIVE任务执行效率。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例本文档来自技高网...

【技术保护点】
1.一种基于大数据平台的HIVE任务调度方法,其特征在于,包括:获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;采用配置文件读取工具读取所述目标HIVE任务中的配置文件;若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。

【技术特征摘要】
1.一种基于大数据平台的HIVE任务调度方法,其特征在于,包括:获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;采用配置文件读取工具读取所述目标HIVE任务中的配置文件;若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。2.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述采用配置文件读取工具读取所述目标HIVE任务中的配置文件之后,所述基于大数据平台的HIVE任务调度方法还包括:若读取失败,则生成文件报错信息,终止所述目标HIVE任务,向所述客户端发送基于所述文件报错信息形成的报警信息。3.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述获取与所述前置任务标识相对应的前置任务日志之后,所述基于大数据平台的HIVE任务调度方法还包括:若所述前置任务日志中未携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务未成功完成,触发事件监听程序,以监听所述前置任务日志的更新数据;若所述事件监听程序在预设监听期限内未监听到所述更新数据包含与所述前置任务标识相对应的任务完成标签,则生成超时报错信息,终止所述目标HIVE任务,向所述客户端发送基于所述超时报错信息形成的报警信息。4.如权利要求3所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述触发事件监听程序,以监听所述前置任务日志的更新数据之后,所述基于大数据平台的HIVE任务调度方法还包括:若所述事件监听程序在预设监听期限内监听到所述更新数据包含与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件。5.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述执行所述目标HIVE任务中的业务文件之后,所述基于大数据平台的HIVE任务调度方法还包括:若所述业务文件未执行成功,则更新所述目标HIVE任务的报错次数;若所述报错次数大于预设次数阈值,则生成重试...

【专利技术属性】
技术研发人员:王睿之
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1