一种大数据任务管理方法、装置、设备及存储介质制造方法及图纸

技术编号:20915469 阅读:28 留言:0更新日期:2019-04-20 09:29
本发明专利技术公开了一种大数据任务管理方法、装置、设备及存储介质,涉及信息技术中大数据处理领域,所述方法包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。本发明专利技术实施例通过元数据描述接口,获取业务开发人员配置的任务相关元数据,根据所述元数据,分析任务间依赖关系、实例化任务、统一管理资源,并根据依赖关系,将任务提交到计算集群执行,业务开发人员只需要关注业务的数据结构和业务逻辑即可,降低了业务开发的门槛。

A Big Data Task Management Method, Device, Equipment and Storage Media

The invention discloses a large data task management method, device, device and storage medium, which relates to the field of large data processing in information technology. The method includes: receiving task algorithm metadata configured by client for computing cluster; generating cleaning tasks for cleaning large data of business according to the task algorithm metadata; and when the cleaning tasks meet the task submission conditions. The cleaning task is then submitted to the computing cluster for the computing cluster to perform the cleaning task. The embodiment of the present invention obtains task-related metadata of business developer configuration through metadata description interface. According to the metadata, it analyses inter-task dependencies, instantiates tasks, unifies management resources, and submits tasks to computing cluster for execution according to dependencies. The business developer only needs to pay attention to the data structure and business logic of the business, thus reducing the cost. The threshold of business development.

【技术实现步骤摘要】
一种大数据任务管理方法、装置、设备及存储介质
本专利技术涉及信息技术中大数据处理领域,特别涉及一种大数据任务管理方法、装置、设备及存储介质。
技术介绍
大数据作为信息时代的热词,已经开始从概念走向价值,成为数据价值化热点,带动学科融合、行业结合、跨领域应用产生综合价值。互联网、金融、健康持续保持对大数据的热度,智慧城市、企业数据化、工业大数据慢慢成为新的大数据增长点。大数据开始朝民生、政策、多样性转化,多学科与数据科学共存融合,开源成为大数据技术生态主流。大数据的本质在于利用海量数据进行数据清洗和挖掘找到或者预测客户的目的数据,例如电信运营商监控掉话率、预测用户离网,医疗卫生利用大数据基于医学数据和专业知识分析患者病症,提供个性化治疗方案,预测疾病发展趋势等等。大数据一个清洗任务通常包括用户算法开发、分析数据的导入、数据清洗、数据展示等几个部分。一个数据集群可能包含成千上万数据清洗任务,各个任务的执行条件、需要的资源各不相同。有些任务存在依赖关系,有些任务需要定时执行,有必要让这些任务在计算集群中有序的运行。一般大数据系统都会提供一个大数据任务管理系统,业务开发人员在算法开发完成后,在客户端生成一个数据清洗任务,并提交到大数据任务管理系统进行统一管理。这种系统管理的缺点是业务开发人员需要了解计算集群的结构,并且不同客户之间的任务依赖关系需要业务开发人员自行保证,因此大数据清洗任务难以及时有效执行。
技术实现思路
本专利技术实施例提供的一种大数据任务管理方法、装置、设备及存储介质,解决现有大数据清洗任务难以及时有效执行的问题。根据本专利技术实施例提供的一种大数据任务管理方法,包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。优选地,所述任务算法元数据包括算法管理元数据和数据管理元数据,所述接收客户端为计算集群配置的任务算法元数据包括:通过算法元数据接口,接收所述客户端根据业务的数据结构和业务逻辑为所述计算集群配置的包括算法元数据和算法实现的算法管理元数据;通过数据元数据接口,接收所述客户端根据业务的数据结构为所述计算集群配置的包含数据元数据和数据结构定义的数据管理元数据。优选地,所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务包括:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息。优选地,在所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务之后,还包括:通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。优选地,所述任务提交条件包括清洗条件和调度条件,当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件;根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件;若确定所述清洗任务满足所述清洗条件和所述调度条件,则将所述清洗任务提交到所述计算集群。优选地,所述根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否有依赖的其它清洗任务;当确定所述清洗任务有依赖的其它清洗任务时,若所述依赖的其它清洗任务已执行完毕,且所述依赖的其它清洗任务的输出数据已到达所述计算集群,则确定所述清洗任务满足清洗条件;当确定所述清洗任务没有依赖的其它清洗任务时,若查询到所述清洗任务的输入数据已到达所述计算集群,则确定所述计算集群上的数据满足清洗条件。优选地,所述根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件包括:若所述清洗任务所需的资源小于所述计算集群的可用资源,则确定所述清洗任务是否满足调度条件。根据本专利技术实施例提供的一种大数据任务管理装置,包括:用户接口模块,用于接收客户端为计算集群配置的任务算法元数据;任务生成模块,用于根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;任务提交模块,用于当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。根据本专利技术实施例提供的一种大数据任务管理设备,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述存储器上存储有可在所述处理器上运行的大数据任务管理程序,所述大数据任务管理程序被所述处理器执行时实现上述的大数据任务管理方法的步骤。根据本专利技术实施例提供的一种存储介质,其上存储有大数据任务管理程序,所述大数据任务管理程序被处理器执行时实现上述的大数据任务管理方法的步骤。本专利技术实施例提供的技术方案具有如下有益效果:本专利技术实施例通过元数据描述接口,获取业务开发人员配置的如算法描述、任务描述等任务相关元数据,根据所述元数据,分析任务间依赖关系、实例化任务、统一管理资源,并根据依赖关系,将任务提交到计算集群执行,业务开发人员只需要关注业务的数据结构和业务逻辑,而不需要关心集群的部署、资源和任务提交命令等,降低了业务开发的门槛。附图说明图1是本专利技术实施例提供的大数据任务管理方法流程图;图2是本专利技术实施例提供的大数据任务管理装置框图;图3是本专利技术实施例的大数据任务管理设备框图;图4是本专利技术实施例的任务管理模块示意图;图5是本专利技术实施例的接口模块元数据管理示意图;图6是本专利技术实施例的任务管理模块的任务元数据与任务实例化示意图;图7是本专利技术实施例的任务状态管理示意图;图8是本专利技术实施例的基于元数据的大数据任务管理系统示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1是本专利技术实施例提供的大数据任务管理方法流程图,如图1所示,步骤包括:步骤S101:接收客户端为计算集群配置的任务算法元数据。步骤S101包括:通过算法元数据接口,接收所述客户端为所述计算集群配置的算法管理元数据,其中,所述算法管理元数据包括算法元数据和算法实现,是所述客户端根据业务的数据结构和业务逻辑而配置的;通过数据元数据接口,接收所述客户端为所述计算集群配置的数据管理元数据,其中,所述数据管理元数据包括数据元数据和数据结构定义,是所述客户端根据业务的数据结构而配置的。步骤S102:根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务。步骤S102包括:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息。在步骤S102之后,通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。例如,清洗任务2依赖于清洗任务1,此时清洗任务2的输入数据是清洗任务1的输出数据,因此清洗任务2应当在清洗任务1执行完毕后,才能调度并提交到计算集群。步骤S103:当所述清洗任务满足任本文档来自技高网...

【技术保护点】
1.一种大数据任务管理方法,其特征在于,包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。

【技术特征摘要】
1.一种大数据任务管理方法,其特征在于,包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。2.根据权利要求1所述的方法,其特征在于,所述任务算法元数据包括算法管理元数据和数据管理元数据,所述接收客户端为计算集群配置的任务算法元数据包括:通过算法元数据接口,接收所述客户端根据业务的数据结构和业务逻辑为所述计算集群配置的包括算法元数据和算法实现的算法管理元数据;通过数据元数据接口,接收所述客户端根据业务的数据结构为所述计算集群配置的包含数据元数据和数据结构定义的数据管理元数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务包括:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息。4.根据权利要求3所述的方法,其特征在于,在所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务之后,还包括:通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。5.根据权利要求4所述的方法,其特征在于,所述任务提交条件包括清洗条件和调度条件,当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件;根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件;若确定所述清洗任务满足所述清洗条件...

【专利技术属性】
技术研发人员:裴朝阳
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1