一种MapReduce任务资源配置参数的机器学习方法技术

技术编号：9694669 阅读：149 留言：0更新日期：2014-02-21 00:57

本发明专利技术涉及第2代Hadoop中YARN平台的作业优化技术，特别涉及一种MapReduce任务资源配置参数的机器学习方法。本发明专利技术通过引入机器学习方法，构建了一种学习器，能够为YARN平台中提交的MapReduce作业选择合适的运行参数，以提高平台运行效率，缩短作业完成时间。

全部详细技术资料下载

【技术实现步骤摘要】
—种MapReduce任务资源配置参数的机器学习方法
本专利技术涉及第2代Hadoop中YARN平台的作业优化技术,特别涉及。
技术介绍
Hadoop是当前最流行的大数据处理工具。它实现了一套分布式存储与计算系统，特别适合于TB、PB级的数据处理，并且借助于MapReduce框架，可以使用户轻松写出分布式程序，将传统业务迁移到分布式平台上来。目前商业化的产品多是基于第I代Hadoop的技术实现，在实用中存在单点瓶颈、资源分配不灵活、编程框架单一等问题。正在研发中的第2代Hadoop，为克服上述缺点，创造性的将资源调度平台与编程框架分离:构建了新的底层平台YARN，负责集群的资源分配及任务调度；剥离MapReduce框架成为独立的可选组件，不再与平台耦合。在新的资源调度平台YARN上，采用的调度算法是“支配资源公平”(DominantResource Fairness, DRF)。用户提交的程序称为作业,每个作业将会拆分成大量子任务运行。用户在提交作业时，需要指定每个子任务运行时占用的CPU和内存资源。YARN平台调度器会依此计算每个子任务的CPU和内存占集群总资源量的比值，并取其大者作为该类子任务的“支配份额”(Dominant Share)。在多名用户同时提交多个作业时，调度器会选择性地启动各类子任务，以保证各用户的总支配份额相同。受上述调度算法影响，用户在提交作业时，设置的资源需求参数将会直接影响到作业的完成时间。设置的资源需求越大，每个子任务运行时间越短，但受到平台调度器的限制，同时运行的子任务数会减少；设置的资源需求越少，每个子任务运行时间...

【技术保护点】
一种MapReduce任务资源配置参数的机器学习方法，包括以下步骤：A、预测任务完成时间；B、预测平台并发任务数；C、计算作业完成时间并判断时间是否最优，如果是则提交作业，如果否则重新进行步骤A。

【技术特征摘要】
1.一种MapReduce任务资源配置参数的机器学习方法，包括以下步骤: A、预测任务完成时间； B、预测平台并发任务数； C、计算作业完成时间并判断时间是否最优，如果是则提交作业，如果否则重新进行步骤A。2.根据权利要求1所述的一种MapReduce任务资源配置参数的机器学习方法，其特征在于，所述步骤A中对于任务完成时间的预测，需要输入数据的特征值有四个:(I) Map/Reduce ； (2)任务类型；(3)数据量；(4)复杂度。3.根据权利要求1所述的一种MapReduce任务资源配置参数的机器学习方法，其特征在于，所述步骤B中对于预测平台并发任务数的具体步骤是: B1、学习器需要记录集群的配置参数，即总的CPU资源和内存资源；依此可以计算各类子任务的资源需求占比； B2、学习器需要在一段自定义时间内观察平台的运行情况，记录不同环境下集群的资源利用情况，即支配份额的波动情况； B3、在学习过程之后，学习器会对新条件下平台的支配份额做出预测，从而为后续计算做好准备。4.根据权利要求3所述的一种MapReduce任务资源配置参数的机器学习方法，其特征在于，所述步骤BI中，此过程针对特定的...

【专利技术属性】
技术研发人员：王恩东，胡雷钧，张东，吴楠，刘璧怡，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人