MR计算平台中用户任务map端聚合的控制方法及装置制造方法及图纸

技术编号:16327169 阅读:67 留言:0更新日期:2017-09-29 19:03
本申请涉及一种MR计算平台中用户任务map端聚合的控制方法及装置。其中,MR计算平台中用户任务map端聚合的控制方法包括:接收提交的用户任务;检测接收的所述用户任务是否符合预设的map端聚合开启条件;根据检测结果自动控制是否开启所述用户任务的map端聚合。本发明专利技术实施例能够根据具体情况自主控制是否对用户任务执行map端聚合,使用户任务进行有效的map端聚合,避免进行无效的map端聚合,从而提高了用户任务的执行效率,提升了MR计算平台性能。

【技术实现步骤摘要】
MR计算平台中用户任务map端聚合的控制方法及装置
本专利技术涉及通信领域,尤其涉及一种MR计算平台中用户任务map端聚合的控制方法及装置。
技术介绍
MR(MapReduce的简写)任务是分布式系统中的一类重要任务,它运行在分布式系统的MR计算平台上。在MR计算平台上,用户任务的执行过程是:首先将提交的用户任务转化成多个独立的MRJob;然后各个MRJob并行执行,完成用户任务。在MRJob的执行过程中,涉及到一种处理,即map端聚合。这里通过一个示例说明什么是map端聚合。以求1、2、3、4、5的最大值为例。采用map端聚合处理的方案是:首先按照数据量将数据分成两组,如[1,2,3]和[4,5],然后针对两组数据分别求出最大值[3]和[5],然后将[3]和[5]组合为[3,5],进而求出最大值5。而没有采用map端聚合的方案是:系统按照数据量将数据组合为[1,2,3,,4,5],进而求出最大值5。当执行MRJob中的map时,如果map端聚合这种处理功能处于开启状态,系统就会执行map端数据的聚合。map端聚合这种处理本身需要占用一定的执行时间。如果map端聚合起到较好的聚合效果,那么就会缩短MRJob的执行时间,提高整个用户任务的执行效率。如果map端聚合没有起到聚合效果(指map的输入数据量等于输出数据量),则不但不会缩短MRJob的执行时间,反而由于map端聚合也要占用一定的执行时间,较之没有进行map端聚合会延长MRJob的执行时间,降低整个用户任务的执行效率。在一个用于大数据处理的大型MR计算平台上,每天都会运行大量的用户任务,因此用户任务的执行效率对于MR计算平台的性能具有很大影响。图1为map端聚合的场景示意图。如图1所示,在求一组数据[1,2,3,4,5,……,50]的最大值时,将数据分成5组,分别由五个线程计算每组的最大值,然后针对每个线程得到的结果再计算最大值,最后得到[1,2,3,4,5,……,50]的最大值。这种处理方式性能较好,但需要消耗更多的计算资源。同样是求一组数据[1,2,3,4,5,……,50]的最大值,还可以通过以下两种情况处理:情况1:将数据[1,2,3,4,5,……,50]分成1组,一个线程计算[1,2,3,4,5,……,50]的最大值;情况2:将数据[1,2,3,4,5,……,50]分成50组,五十个线程计算每组的最大值,然后针对每个线程得到的结果再计算最大值。情况1每组处理50个数字,性能较差;情况2每组处理1个数字,但后续启动的线程要处理50个数字,性能较差,且消耗更多的计算资源。情况1和情况2都没有起到较好的聚合效果,因此情况1和情况2的map端聚合是无效的。下面对一些术语进行解释。物理表:是一种数据库中存储数据的结构,也可以简称为表。物理表的主键(即主关键字):主键是指物理表中能唯一确定一条记录的字段。例如,学生表(学号,姓名,性别,班级)包括学号、姓名、性别、班级这四个字段,其中学号能够唯一确定学生表中的一条记录,因此,学号就是学生表的一个主键。物理表的外键(即外关键字):外键用于与另一张表的关联,是能确定另一张表记录的字段,用于保持数据的一致性。比如,A表中的一个字段,是B表的主键,那么该字段就可以是A表的外键。例如,上述的学生表(学号,姓名,性别,班级)中,学号是学生表的一个主键。上机记录表(卡号,学号,姓名,序列号)中包括“学号”这个字段,并且“学号”是学生表的主键,所以,上机记录表(卡号,学号,姓名,序列号)中的“学号”是学生表的外键。可见,外键表示了两个物理表之间的联系。以另一个物理表的外键作主关键字的表被称为主表,具有此外键的表被称为主表的从表。聚合键:以下面的表1为例。如果求表1中各个性别的总人数,那么性别为聚合键;如果求表1中各个班级的总人数,那么班级为聚合键;可见,针对表中的哪个字段做聚合,哪个字段就是聚合键。表1班级性别人数1年级男101年级女202年级男152年级女18目前,在相关技术中,MR计算平台的处理系统对于所有用户任务的map端聚合要么全部开启,要么全部关闭。这种“一刀切”的方式既不能利用有效的map端聚合提高用户任务的执行效率,也不能避免无效的map端聚合降低用户任务的执行效率。
技术实现思路
本专利技术的目的在于提供一种MR计算平台中用户任务map端聚合的控制方法及装置,提高用户任务的执行效率,提升MR计算平台性能。为实现上述目的,本专利技术提出了一种MR计算平台中用户任务map端聚合的控制方法,包括:接收提交的用户任务;检测接收的所述用户任务是否符合预设的map端聚合开启条件;根据检测结果自动控制是否开启所述用户任务的map端聚合。进一步地,上述方法还可具有以下特点,所述map端聚合开启条件包括:所述用户任务为非建表语句,聚合键不是所述用户任务的物理表的主键并且也不是所述用户任务的物理表的外键。进一步地,上述方法还可具有以下特点,所述map端聚合开启条件包括:所述用户任务为非建表语句,所述用户任务的历史map端聚合记录中的map端聚合的总输入数据量与总输出数据量的比例大于或等于预设的比例阈值。进一步地,上述方法还可具有以下特点,所述map端聚合开启条件包括:所述用户任务为非建表语句,所述用户任务被人工设置了map端聚合。进一步地,上述方法还可具有以下特点,在所述接收提交的用户任务之前,还包括:预设所述map端聚合开启条件。进一步地,上述方法还可具有以下特点,还包括:在所述用户任务为建表语句的情况下,执行所述建表语句,创建物理表;提示用户指定创建的所述物理表的主键和外键;根据用户指定设置创建的所述物理表的主键和外键。本专利技术实施例的MR计算平台中用户任务map端聚合的控制方法,能够提高用户任务的执行效率,提升MR计算平台性能。为实现上述目的,本专利技术还提出了一种MR计算平台中用户任务map端聚合的控制装置,包括:接收模块,用于接收提交的用户任务;检测模块,用于检测所述接收模块接收的所述用户任务是否符合预设的map端聚合开启条件;控制模块,用于根据所述检测模块的检测结果自动控制是否开启所述用户任务的map端聚合。进一步地,上述装置还可具有以下特点,所述map端聚合开启条件包括:所述用户任务为非建表语句,聚合键不是所述用户任务的物理表的主键并且也不是所述用户任务的物理表的外键。进一步地,上述装置还可具有以下特点,所述map端聚合开启条件包括:所述用户任务为非建表语句,所述用户任务的历史map端聚合记录中的map端聚合的总输入数据量与总输出数据量的比例大于或等于预设的比例阈值。进一步地,上述装置还可具有以下特点,所述map端聚合开启条件包括:所述用户任务为非建表语句,所述用户任务被人工设置了map端聚合。进一步地,上述装置还可具有以下特点,还包括:预设模块,与所述检测模块相连,用于预设所述map端聚合开启条件。进一步地,上述装置还可具有以下特点,还包括:创建模块,用于在所述用户任务为建表语句的情况下,执行所述建表语句,创建物理表;提示模块,用于提示用户指定所述创建模块创建的所述物理表的主键和外键;设置模块,用于根据用户指定设置所述创建模块创建的所述物理表的主键和外键。本专利技术实施例的MR计算平台中用户任本文档来自技高网
...
MR计算平台中用户任务map端聚合的控制方法及装置

【技术保护点】
一种MR计算平台中用户任务map端聚合的控制方法,其特征在于,包括:接收提交的用户任务;检测接收的所述用户任务是否符合预设的map端聚合开启条件;根据检测结果自动控制是否开启所述用户任务的map端聚合。

【技术特征摘要】
1.一种MR计算平台中用户任务map端聚合的控制方法,其特征在于,包括:接收提交的用户任务;检测接收的所述用户任务是否符合预设的map端聚合开启条件;根据检测结果自动控制是否开启所述用户任务的map端聚合。2.根据权利要求1所述的MR计算平台中用户任务map端聚合的控制方法,其特征在于,所述map端聚合开启条件包括:所述用户任务为非建表语句,聚合键不是所述用户任务的物理表的主键并且也不是所述用户任务的物理表的外键。3.根据权利要求1所述的MR计算平台中用户任务map端聚合的控制方法,其特征在于,所述map端聚合开启条件包括:所述用户任务为非建表语句,所述用户任务的历史map端聚合记录中的map端聚合的总输入数据量与总输出数据量的比例大于或等于预设的比例阈值。4.根据权利要求1所述的MR计算平台中用户任务map端聚合的控制方法,其特征在于,所述map端聚合开启条件包括:所述用户任务为非建表语句,所述用户任务被人工设置了map端聚合。5.根据权利要求1所述的MR计算平台中用户任务map端聚合的控制方法,其特征在于,在所述接收提交的用户任务之前,还包括:预设所述map端聚合开启条件。6.根据权利要求1所述的MR计算平台中用户任务map端聚合的控制方法,其特征在于,还包括:在所述用户任务为建表语句的情况下,执行所述建表语句,创建物理表;提示用户指定创建的所述物理表的主键和外键;根据用户指定设置创建的所述物理表的主键和外键。7.一种MR计算平台中用户任务map端聚合的控制装置,其特征在于,包括:接收模块,用于接收提交的用户任务;检测模块,用于检测所述接收模块接收的所述用户任务是否符合预设的map端聚合开启条件;控制模块,用于...

【专利技术属性】
技术研发人员:贾元乔孙伟光
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1