当前位置: 首页 > 专利查询>中山大学专利>正文

一种教育云平台中的大数据任务调度方法技术

技术编号:21476908 阅读:19 留言:0更新日期:2019-06-29 04:38
本发明专利技术为教育云平台中的大数据任务调度方法,根据云平台总体资源、核心大数据处理任务优先级及其资源需求量、预期任务运行时间进行任务调度;若任务请求不是大数据任务,直接调度任务;若是核心任务则预测系统资源及运行时间;根据各项任务参数在数据库中添加相应的任务实例;根据调度方法将任务添加到任务队列中,获取运行优先级最高的任务;当云平台资源满足任务资源需求时按需分配资源,若当前使用资源未超过最大可用资源将任务分发到相应受培训者的大数据集群中;否则重新添加到任务队列中。能防止过多用户同时通过其已获得分配的虚拟机集群高并发运行大数据任务,从而支持机构利用有限物理机资源为每个受培训者提供有效的大数据实验环境。

【技术实现步骤摘要】
一种教育云平台中的大数据任务调度方法
本专利技术涉及云计算与大数据
,具体涉及一种教育云平台中的大数据任务调度方法。
技术介绍
云计算环境下,物理机中所有虚拟机对于物理资源的使用总量一般都少于物理资源的总量。为了提高物理资源的利用率,在构建虚拟资源池(包括计算、存储、网络等资源)时,资源通常会超配(物理机中所有虚拟机的vCPU或/和内存资源总量超过了物理机本身的资源限制)。随着云计算的快速发展,很多高校、培训机构及企事业单位的培训部门(统称培训单位)都建立了教育云平台,以对不同的实验课程提供支持。为支持受培训者进行大数据教学实验,云平台需要为每个受培训者配置独立的大数据集群(虚拟机集群)来进行大数据分析实验。较低配置(如8G内存、8vCPU、20G硬盘)的大数据集群(虚拟机集群)计算能力有限,只能用于在小数据集上进行实验;而较高配置(如640G内存、128vCPU、8T硬盘)的大数据集群(虚拟机集群)需要较多的物理机资源。为了能够给每个受培训者提供较高配置的大数据集群,突破培训单位的物理机资源有限的问题,培训单位需要使用较高的资源超配比来构建虚拟资源池支持实验。在大数据分析实验课程中,受培训者大部分时间都在编程、查资料、写文档等,虚拟机在这段时间使用物理资源量低;受培训者只在少数时间提交并运行大数据任务。大数据任务运行时,虚拟机集群对于物理资源的使用量很高。考虑到受培训者的实验进度差不多,过多需要运行较长时间的大数据任务可能在差不多时间提交并运行,造成在物理资源超配较高的情况下,过多的大数据任务并发运行在不同的大数据集群(虚拟机集群)中,导致物理机集群负载过大,用户体验差。为了防止过多的大数据任务并发运行在不同的大数据集群(虚拟机集群)中,需要设计一种不同于标准云平台任务调度的大数据任务调度方法,对受培训者提交的任务进行合理调度,在较少总体资源,资源超正常超配的情况下,适当调度减少并发大数据任务,确保良好用户体验。现有大数据任务调度方法无法对教育云平台中所有受培训者的大数据任务进行合理调度:现有大数据任务调度方法通常直接利用云平台的工作调度机制,不能对多个大数据虚拟集群的大数据任务进行统一调度,或者仅仅根据大数据任务运行数量以及预设阈值进行任务调度,容易导致资源的使用率在一些时段很低,但在另外一些时段超高。因而,需要一种新的大数据任务调度方法,实现对教育云平台中所有受培训者的大数据任务进行合理统一调度。这种调度方法应该根据云平台的总体资源、任务优先级、预期任务的资源需求量以及运行时间进行任务调度,防止过多用户同时通过其已获得分配的超高超配大数据集群(虚拟机集群)运行高并发的资源密集型的大数据任务,从而支持培训单位利用较为有限的物理机资源为每个受培训者提供有效的大数据实验环境。
技术实现思路
本专利技术提供了一种教育云平台中的大数据任务调度方法,用于解决现有大数据任务调度方法无法对教育云平台中所有受培训者的大数据任务进行合理调度的问题,能防止过多用户同时通过其已获得分配的虚拟机集群高并发运行资源密集型的大数据任务,从而支持高校、培训机构、企事业单位等培训机构利用有限物理机资源为每个受培训者提供有效的大数据实验环境。为了解决上述问题,本专利技术采用如下技术方案:一种教育云平台中的大数据任务调度方法,大数据任务调度方法运行在基于云计算技术的教育云平台,根据云平台的总体资源、核心大数据处理任务优先级及其资源需求量、预期任务运行时间进行任务调度;所述任务调度步骤包括:1)受培训者提交任务;2)系统自动拦截任务请求,并判断任务是否为大数据任务;若不是大数据任务,系统直接调度任务;否则,进入下一步骤;3)判断任务是否为教师建议的核心任务,若是核心任务,则预测核心任务需要的系统资源及运行时间;否则,将任务的运行优先级设为最低;4)根据任务代码、数据源、任务名称、任务运行参数,在数据库中添加相应的任务实例;5)根据调度方法将任务添加到任务队列中;6)根据调度方法从任务队列中获取运行优先级最高的任务;7)当云平台的资源满足任务的资源需求时,进入下一步骤;否则,将任务重新添加到任务队列中;8)按任务的资源需求分配资源后,如果用户当前使用的资源没有超过用户最大可用资源时,将任务分发到相应受培训者的大数据集群中;否则,将任务重新添加到任务队列中。优选地,对于每个实验,受培训者通过系统设定以下任一种调度方法,以完成调度任务过程:a)先到先服务调度算法:在满足任务资源需求的情况下,先提交的任务先运行;b)高优先级优先调度算法:在满足任务资源需求的情况下,优先级高的任务先运行;c)最快完成优先调度算法:在满足任务资源需求的情况下,根据任务预测运行时间,能够最快完成的任务优先运行;d)最低资源需求得分优先调度算法;e)资源需求得分与运行时间积最小优先调度算法:在各分项资源均满足的任务中,选取任务资源需求得分与运行时间积最小的任务先运行;如果系统没有设定调度算法,缺省调度算法为e)。优选地,最低资源需求得分优先调度算法d)中,任务j的资源需求得分为:Sj=k1Cj+k2Mj+k3Ij+k4Dj其中Cj表示任务j需要的计算能力;Mj表示任务j需要的内存;Ij表示任务j需要的中间结果存储空间;Dj表示任务j需要的磁盘空间;k1、k2、k3、k4的取值保证k1Cj、k2Mj、k3Ij、k4Dj的值均在0-1之间;在各分项资源均满足的任务中,选取得分最少的任务先运行。优选地,所述核心任务需要的系统资源以及运行时间的预测,采用以下算法实现:S31:教师试运行实验的核心任务,系统记录每个核心任务所需的系统资源及运行时间;S32:受培训者运行实验时,如果其运行的核心任务j匹配教师建议的核心任务,则任务j在第i次运行需要的资源和运行时间分别为Rj(i-1)和Tj(i-1);如果任务j在第i次成功运行且云平台检测到任务j所需系统资源为rji、运行时间为tji,则将任务j的预测资源需求量及运行时间分别更新为:Rj(i)=aRj(i-1)+(1-a)rjiTj(i)=bTj(i-1)+(1-b)tji其中Rj(i)和Tj(i)分别表示核心任务j在第i次运行后的预测资源需求量与运行时间,Rj(0)和Tj(0)分别表示系统仅依据教师运行核心任务的历史信息预测任务j需要的系统资源以及运行时间;a和b均为取值在(0,1)区间的可预设的常量;如果任务j未能匹配教师建议的核心任务,则其运行需要的资源与运行时间未知,运行优先级为最低。优选地,任务的运行优先级由其用户u已提交但未运行的任务数mu、任务所需资源及运行时间决定。在优选的实施例中,任务的运行优先级设置成K级别,任务j的运行优先级为:其中mu<K,As<K;S0、T0、As、K均为可预设的常量,S0、T0分别表示任务的标准资源需求得分和标准运行时间;Sj、Tj分别表示任务j的资源需求得分和运行时间。从以上技术方案可知,本专利技术针对大数据教学平台平均资源使用量低、峰值资源需求高的特点,提出一种基于逻辑隔离、资源超正常超配的调度方法,对高峰核心业务进行核心资源需求预测、任务排队与调度管理。在总资源有限的情况下,大数据教学平台能以较低成本支持受培训者高效完成大数据实验。与现有技术相比,本专利技术的技术方案取得了如下有益效果本文档来自技高网
...

【技术保护点】
1.一种教育云平台中的大数据任务调度方法,其特征在于,大数据任务调度方法运行在基于云计算技术的教育云平台,根据云平台的总体资源、核心大数据处理任务优先级及其资源需求量、预期任务运行时间进行任务调度;所述任务调度步骤包括:1)受培训者提交任务;2)系统自动拦截任务请求,并判断任务是否为大数据任务;若不是大数据任务,系统直接调度任务;否则,进入下一步骤;3)判断任务是否为教师建议的核心任务,若是核心任务,则预测核心任务需要的系统资源及运行时间;否则,将任务的运行优先级设为最低;4)根据任务代码、数据源、任务名称、任务运行参数,在数据库中添加相应的任务实例;5)根据调度方法将任务添加到任务队列中;6)根据调度方法从任务队列中获取运行优先级最高的任务;7)当云平台的资源满足任务的资源需求时,进入下一步骤;否则,将任务重新添加到任务队列中;8)按任务的资源需求分配资源后,如果用户当前使用的资源没有超过用户最大可用资源时,将任务分发到相应受培训者的大数据集群中;否则,将任务重新添加到任务队列中。

【技术特征摘要】
1.一种教育云平台中的大数据任务调度方法,其特征在于,大数据任务调度方法运行在基于云计算技术的教育云平台,根据云平台的总体资源、核心大数据处理任务优先级及其资源需求量、预期任务运行时间进行任务调度;所述任务调度步骤包括:1)受培训者提交任务;2)系统自动拦截任务请求,并判断任务是否为大数据任务;若不是大数据任务,系统直接调度任务;否则,进入下一步骤;3)判断任务是否为教师建议的核心任务,若是核心任务,则预测核心任务需要的系统资源及运行时间;否则,将任务的运行优先级设为最低;4)根据任务代码、数据源、任务名称、任务运行参数,在数据库中添加相应的任务实例;5)根据调度方法将任务添加到任务队列中;6)根据调度方法从任务队列中获取运行优先级最高的任务;7)当云平台的资源满足任务的资源需求时,进入下一步骤;否则,将任务重新添加到任务队列中;8)按任务的资源需求分配资源后,如果用户当前使用的资源没有超过用户最大可用资源时,将任务分发到相应受培训者的大数据集群中;否则,将任务重新添加到任务队列中。2.根据权利要求1所述的大数据任务调度方法,其特征在于,对于每个实验,受培训者通过系统设定以下任一种调度方法,以完成调度任务过程:a)先到先服务调度算法:在满足任务资源需求的情况下,先提交的任务先运行;b)高优先级优先调度算法:在满足任务资源需求的情况下,优先级高的任务先运行;c)最快完成优先调度算法:在满足任务资源需求的情况下,根据任务预测运行时间,能够最快完成的任务优先运行;d)最低资源需求得分优先调度算法;e)资源需求得分与运行时间积最小优先调度算法:在各分项资源均满足的任务中,选取任务资源需求得分与运行时间积最小的任务先运行;如果系统没有设定调度算法,缺省调度算法为e)。3.根据权利要求2所述的大数据任务调度方法,其特征在于,最低资源需求得分优先调度算法d)中,任务j的资源需求得分为:Sj=k1Cj+k2Mj+k3Ij+k4Dj其中Cj表示任务j需要的计算能力;Mj表示任务j需要的内存;Ij表示任务j需要的中间结果存储空间;Dj表示任务j需要的磁盘空间;k1、k2、k3、k4的取值保证k1Cj、k2Mj、k3Ij、k4Dj的值均在0-1之间;在各分项资源均满足的任务中,选取得分最少的任务先运行。4.根据权利要求1所述的大数据任务调度方法,其特征在于,所述核心任务需要...

【专利技术属性】
技术研发人员:温木奇谢明森黄国燕万海
申请(专利权)人:中山大学广州云晫信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1