一种任务处理方法和设备技术

技术编号：15541191 阅读：95 留言：0更新日期：2017-06-05 10:42

本申请实施例公开了一种任务处理方法和设备，通过应用本申请实施例所提出的技术方案，结合任务的实际输入数据量和任务所在集群的组的当前限额使用率，对相应的资源进行适应性调整，从而，实现了在大型计算集群中，对运行的任务进行个性化分配计算资源，保障任务得到合理的资源，提高任务执行效率，保证计算集群的资源利用率，提升任务并发度。

Task processing method and equipment

The embodiment of the invention discloses a method and a device for processing tasks, the implementation of technical solutions were proposed through the application of the application, combined with the actual task input data and task of cluster group currently limit the use of the corresponding rate, resources and adjust from, achieved in large computing cluster. Personalized allocation of tasks of computing resources, security tasks get reasonable resources, improve the efficiency of task execution, guarantee the utilization rate of cluster resources, enhance the task concurrency.

全部详细技术资料下载

【技术实现步骤摘要】
一种任务处理方法和设备
本申请涉及数据处理
，尤其涉及一种任务处理方法和设备。
技术介绍
对于一个繁忙的大型集群系统，每天会有数十万量级次数的临时查询任务，这些临时查询任务中，大部分取数任务基本只会运行一次。在现有的技术方案中，默认情况下，系统认为输入文件大小都是整张表的大小，且一个表可以处理256M的数据，这样就可以控制该任务需要的表数。但是，申请人在实现本申请的过程中发现现有技术中存在以下技术问题：实际应用中，很多的任务都不是取的整张表的所有字段，且很多任务都有很多特殊的操作，如LIMIT(限定)、GBY(聚合)等，如果仍按照默认算法，会导致很多任务分配不到合理的计算资源，进而影响集群任务的吞吐量，导致部分任务由于不能及时得到计算资源而长期等待，进而会对用户体验造成非常恶劣的影响。
技术实现思路
本申请实施例提供了一种任务处理方法及设备，用以对运行的任务进行个性化分配计算资源，保障任务得到合理的资源，提高任务执行效率，从而保证计算集群的资源利用率，提升任务并发度。为此，本申请采用以下技术手段：本申请实施例提供了一种任务处理方法，该方法包括：当任务管理设备接收到任务时，所述任务管理设备判断所述任务的输入数据量是否已经被配置为全表数据量；如果判断结果为否，所述任务管理设备调用内置优化接口，确定所述任务的实际输入数据量；所述任务管理设备判断所述任务所在集群的组的当前限额使用率是否超过预设阈值；如果没有超过，所述任务管理设备判断所述实际输入数据量是否大于全表数据量；如果大于，所述任务管理设备根据所述实际输入数据量，为所述任务分配资源，并执行所述任务。另一方面...
一种任务处理方法和设备

【技术保护点】
一种任务处理方法，其特征在于，该方法包括：当任务管理设备接收到任务时，所述任务管理设备判断所述任务的输入数据量是否已经被配置为全表数据量；如果判断结果为否，所述任务管理设备调用内置优化接口，确定所述任务的实际输入数据量；所述任务管理设备判断所述任务所在集群的组的当前限额使用率是否超过预设阈值；如果没有超过，所述任务管理设备判断所述实际输入数据量是否大于全表数据量；如果大于，所述任务管理设备根据所述全表数据量，为所述任务分配资源，并执行所述任务。

【技术特征摘要】
1.一种任务处理方法，其特征在于，该方法包括：当任务管理设备接收到任务时，所述任务管理设备判断所述任务的输入数据量是否已经被配置为全表数据量；如果判断结果为否，所述任务管理设备调用内置优化接口，确定所述任务的实际输入数据量；所述任务管理设备判断所述任务所在集群的组的当前限额使用率是否超过预设阈值；如果没有超过，所述任务管理设备判断所述实际输入数据量是否大于全表数据量；如果大于，所述任务管理设备根据所述全表数据量，为所述任务分配资源，并执行所述任务。2.如权利要求1所述的方法，其特征在于，所述方法还包括：如果所述任务管理设备判断所述任务的输入数据量已经被配置为全表数据量，所述任务管理设备根据所述全表数据量，为所述任务分配资源，并执行所述任务；如果所述任务管理设备判断所述任务所在集群的组的当前限额使用率超过预设阈值，所述任务管理设备根据所述实际输入数据量，为所述任务分配资源，并执行所述任务；如果所述任务管理设备判断所述实际输入数据量不大于全表数据量，所述任务管理设备根据所述实际输入数据量，为所述任务分配资源，并执行所述任务。3.如权利要求1或2所述的方法，其特征在于，所述预设阈值具体为50％。4.如权利要求1所述的方法，其特征在于，所述任务管理设备调用内置优化接口，确定所述任务的实际输入数据量，具体包括：所述任务管理设备对所述任务进行SQL编译，并获取SQL编译之后的任务树；所述任务管理设备判断所述任务树是否为空；如果为空，所述任务管理设备将所述全表数据量作为实际输入数据量；如果不为空，所述任务管理设备对SQL编译之后的数据进行重解析，并依据预设的数据量确定规则，根据重解析后的结果确定实际输入数据量。5.如权利要求4所述的方法，其特征在于，所述任务管理设备对SQL编译之后的数据进行重解析，并依据预设的数据量确定规则，根据重解析后的结果确定实际输入数据量，具体包括：所述任务管理设备对SQL编译之后的关键预算符operator进行重解析；所述任务管理设备根据重解析后的结果确定以下四个变量：每个物理表所需字段与全部字段占比a、映射map含有的去重distinct数量b、自定义函数udf数量c以及映射关联mapjoin数量d；所述任务管理设备根据所述四个变量，按照以下规则确定实际输入数据量：实际输入数据量＝全表数据量×a+max(全表数据量×b，全表数据量×I(c)...

【专利技术属性】
技术研发人员：贾元乔，孙伟光，苏艳，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人