The invention discloses a large data task management method, device, device and storage medium, which relates to the field of large data processing in information technology. The method includes: receiving task algorithm metadata configured by client for computing cluster; generating cleaning tasks for cleaning large data of business according to the task algorithm metadata; and when the cleaning tasks meet the task submission conditions. The cleaning task is then submitted to the computing cluster for the computing cluster to perform the cleaning task. The embodiment of the present invention obtains task-related metadata of business developer configuration through metadata description interface. According to the metadata, it analyses inter-task dependencies, instantiates tasks, unifies management resources, and submits tasks to computing cluster for execution according to dependencies. The business developer only needs to pay attention to the data structure and business logic of the business, thus reducing the cost. The threshold of business development.
【技术实现步骤摘要】
一种大数据任务管理方法、装置、设备及存储介质
本专利技术涉及信息技术中大数据处理领域,特别涉及一种大数据任务管理方法、装置、设备及存储介质。
技术介绍
大数据作为信息时代的热词,已经开始从概念走向价值,成为数据价值化热点,带动学科融合、行业结合、跨领域应用产生综合价值。互联网、金融、健康持续保持对大数据的热度,智慧城市、企业数据化、工业大数据慢慢成为新的大数据增长点。大数据开始朝民生、政策、多样性转化,多学科与数据科学共存融合,开源成为大数据技术生态主流。大数据的本质在于利用海量数据进行数据清洗和挖掘找到或者预测客户的目的数据,例如电信运营商监控掉话率、预测用户离网,医疗卫生利用大数据基于医学数据和专业知识分析患者病症,提供个性化治疗方案,预测疾病发展趋势等等。大数据一个清洗任务通常包括用户算法开发、分析数据的导入、数据清洗、数据展示等几个部分。一个数据集群可能包含成千上万数据清洗任务,各个任务的执行条件、需要的资源各不相同。有些任务存在依赖关系,有些任务需要定时执行,有必要让这些任务在计算集群中有序的运行。一般大数据系统都会提供一个大数据任务管理系统,业务开发人员在算法开发完成后,在客户端生成一个数据清洗任务,并提交到大数据任务管理系统进行统一管理。这种系统管理的缺点是业务开发人员需要了解计算集群的结构,并且不同客户之间的任务依赖关系需要业务开发人员自行保证,因此大数据清洗任务难以及时有效执行。
技术实现思路
本专利技术实施例提供的一种大数据任务管理方法、装置、设备及存储介质,解决现有大数据清洗任务难以及时有效执行的问题。根据本专利技术实施例提供的一种大数据 ...
【技术保护点】
1.一种大数据任务管理方法,其特征在于,包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。
【技术特征摘要】
1.一种大数据任务管理方法,其特征在于,包括:接收客户端为计算集群配置的任务算法元数据;根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务;当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群,以供所述计算集群执行所述清洗任务。2.根据权利要求1所述的方法,其特征在于,所述任务算法元数据包括算法管理元数据和数据管理元数据,所述接收客户端为计算集群配置的任务算法元数据包括:通过算法元数据接口,接收所述客户端根据业务的数据结构和业务逻辑为所述计算集群配置的包括算法元数据和算法实现的算法管理元数据;通过数据元数据接口,接收所述客户端根据业务的数据结构为所述计算集群配置的包含数据元数据和数据结构定义的数据管理元数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务包括:根据所述算法管理元数据,至少生成一个清洗任务,并根据所述数据管理元数据,确定每个清洗任务的包括数据来源、数据存储方式、数据保存的实际结构的信息。4.根据权利要求3所述的方法,其特征在于,在所述根据所述任务算法元数据,生成用于清洗业务大数据的清洗任务之后,还包括:通过分析所述任务算法元数据,确定每个清洗任务的输入和输出信息,并根据所述每个清洗任务的输入和输出信息,确定各个清洗任务之间的依赖关系。5.根据权利要求4所述的方法,其特征在于,所述任务提交条件包括清洗条件和调度条件,当所述清洗任务满足任务提交条件时,将所述清洗任务提交到所述计算集群包括:根据各个清洗任务之间的依赖关系,确定所述清洗任务是否满足清洗条件;根据所述清洗任务所需的资源和所述计算集群的可用资源,确定所述清洗任务是否满足调度条件;若确定所述清洗任务满足所述清洗条件...
【专利技术属性】
技术研发人员:裴朝阳,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。