一种面向数据挖掘云的资源调度方法技术

技术编号:19215554 阅读:38 留言:0更新日期:2018-10-20 06:40
本发明专利技术提出一种面向数据挖掘云的资源调度方法。其将CPU、内存封装为基本计算单元。同时,将所需部署的软件封装为统一的虚拟机镜像。在这一基础上为不同规模的计算任务统一配置需求模板。在系统运行过程中,计算层中的数据挖掘引擎,向Pass层中的资源调度系统提出调度工单。根据工单调用对应的模板,计算所需的虚拟机数量。同时,根据全部虚拟机的运行状态,对现有的应用虚拟机资源进行压缩,利用迁移等手段实现应用虚拟机的余量资源回收。在回收资源以及余量资源合并的基础上,对可利用虚拟机资源进行统一组织。根据虚拟机数量以及对应的镜像实现快速部署与启动。在任务执行完毕后,根据系统状态,回收资源,保证其正常运转。

【技术实现步骤摘要】
一种面向数据挖掘云的资源调度方法
本专利技术属于云计算与大数据与领域,具体涉及一种面向数据挖掘云的资源调度方法。背景概述近年来,随着大数据与云计算技术的不断发展,数据驱动的智能分析系统逐渐在各个行业中崭露头角。在大规模数据集的基础上开展分析挖掘,以挖掘的知识与模式为基础,在数据增量过程通过实时对比分析实现各种对象的运行状态动态监测、行为判断以及趋势预测是这一类系统的核心业务。以高速列车监控运行监控系统为例,如图1所示。在日常监控过程中,大量监控数据汇聚在数据中心。数据中心根据一定人物周期定期启动数据挖掘任务。通过挖掘任务实现各种对象模式识别与应用知识构建。在这一基础上,实现实时异常检测与故障诊断。由于对象数量较多,且监测体系指标构成复杂,在挖掘过程中会形成较大规模的计算负载。上述示例是此类系统的典型应用场景。这一类系统多采用集中式架构,通过多级数据采集、传输单元实现基础数据的汇聚并实现统一管理。在这一基础上,通过计算单元构建任务引擎,实现挖掘任务的运行、管理以及维护。由于数据增量规模较大且计算处理日趋复杂,为了保证系统整体具有合理的响应性能,多采用云的方式实现整体架构搭建,由此形成数据挖掘云的形态。在这一数据挖掘云中,底层为Iass层,其基础硬件,由众多计算、应用与存储服务器构成。在系统构建运行过程中,这些硬件设备实现集中管理,由系统统一分配计算与存储资源。同时,从应用的角度出发,在系统运行过程中,根据一定的运维管理制度对底层设备阶段性进行更新、替换、扩容等操作,保证上层系统的稳定性、可靠性以及计算响应性;上一层为Pass层,这一层次是本专利技术所提及的数据挖掘云资源调度的核心。在这一层次中,通过虚拟化将底层的物理设备实现资源封装,根据运维管理制度以CPU、内存、存储等指标为基础,将物理资源封装成统一规格的基本单元。在系统运行过程中,以该基本单元为标准建立虚拟机,在虚拟机内部运行上层计算与处理软件系统。在系统运行过程中,根据任务性能需求计算所需的资源量与对应的基本单元规模,在任务周期过程中为任务准备所需的资源;在任务执行过程中,维护各个虚拟机的运行状态;在任务结束后,回收基本单元的资源量,并释放给其他应用系统。通过这一方式,在有限的物理资源集基础上,实现计算任务的性能保障;Pass层上为数据层,这一层次中主要为数据统一存储管理。其在物理存储资源的基础上,通过分布式数据库或文件系统实现各类数据的统一存储、检索、查询与提取。以这些层次为基础,计算层中通过数据挖掘引擎开展数据计算与挖掘活动,计算与挖掘活动被封装为任务统一执行。为满足数据处理与挖掘性能要求,计算层以并行计算框架为基础搭建(例如:Mapreduce、Spark)。这些计算框架多采用Master-Slave的结构,即由master节点实现任务的封装、分发以及结果的收集;slave节点实现局部数据的计算处理。在结构上,slave由多个同构节点构成,其中部署slave基本任务执行单元以及计算分析程序。在日常运行中,slave节点处于闲置状态,节点本身没有较大的资源负载;在任务执行过程中,slave节点处于工作状态,节点CPU、内存等资源处于较高负载状态。从性能保障的角度出发,针对大数据的挖掘任务的系统需要较多slave节点。较多的slave节点能够有效均衡计算负载,降低单节点计算规模,使得整体计算性能提高。另一方面,系统整体物理资源规模有限。同时,需要承载其他应用任务。如果将大量物理资源以虚拟机的方式分配给slave节点会导致其他应用任务的性能无法保证。同时,挖掘任务具有周期性,在闲置阶段,这些slave节点占用的资源无法有效利用,继而导致系统整体利用效率较低。
技术实现思路
针对上述资源利用率低的问题,本专利技术提出一种面向数据挖掘云的资源调度方法。云环境中的虚拟机资源定义为可伸缩应用虚拟机、不可伸缩应用虚拟机。本专利技术资源调度针对的是可伸缩应用虚拟机的资源调度,不可伸缩对象不参与资源调度。本专利技术提供的面向数据挖掘云的资源调度方法,包括如下步骤:第一步:基于统一资源指标约数规格定制基本计算单元,将基本计算单元封装为可伸缩应用虚拟机;所述统一资源指标约数规格包括:CPU核数、内存大小;在后续的资源调度中基于基本计算单元实现可伸缩应用虚拟机的资源调度,基本计算单元能够根据计算任务的需求进行动态创建、维护和撤销;第二步:针对云环境中各种计算任务定义资源需求模板,通过资源需求模板实现计算任务资源需求与底层可调度资源之间的匹配;第三步:建立操作栈,通过操作栈实现资源调度操作的阻塞与操作序列组织管理;第四步:在计算任务启动阶段,计算任务提出的资源调度请求,根据计算任务定义的资源需求模板,计算所需的可伸缩应用虚拟机资源量;该步骤是基本计算单元的动态构建,在资源调度过程中,根据任务加载对应模板,实现基本计算单元的动态构建;第五步:获取当前系统中全部可伸缩应用虚拟机的预留资源总量,根据第四步计算任务所需的资源量进行匹配,确定最终需要压缩的可伸缩虚拟机队列;第六步:在操作栈中构建迁移操作,通过所述迁移操作将第五步得到的可伸缩虚拟机队列中可伸缩应用虚拟机进行迁移,释放对应的计算资源;所述对应的计算资源是指在虚拟机从大资源容量环境迁移到小资源容量环境后,两个容量的差额;第七步:汇总释放的计算资源和预留的计算资源得到全部可用计算资源,构造编排操作,通过所述编排操作实现基本计算单元的统一快速批量部署;第八步:完成计算资源伸缩,反馈给计算任务等待其执行上层数据挖掘与计算任务在等待过程中,阻塞针对当前基本计算单元的资源调度操作;第九步:计算任务执行完毕后,计算任务提交资源回收请求,调度系统接受该请求;根据计算任务标识在操作栈中获取对应的迁移操作信息;第十步:根据迁移操作信息,将所创建的基本计算单元对应的可伸缩应用虚拟机撤销,回收计算资源;第十一步:根据迁移操作信息,为本次资源调度中迁移的可伸缩应用虚拟机重新构造初始资源环境,并将其迁移到初始资源环境中;第九、十、十一步对应的是基本计算单元的动态操作,在计算任务执行完毕后,实现基本计算单元的动态撤销。第十二步:完成全部资源调度,在操作栈中注销当前操作,解除资源阻塞。本专利技术中通过操作栈的方式实现资源调度的操作的组织与管理。当一个资源调度请求开始执行后,其相关操作信息在栈中序列化组织。同时,该操作所涉及的资源进行阻塞,避免多操作引起的混乱。上述面向数据挖掘云的资源调度方法中,所述第五步中,在资源量进行匹配过程中,首先计算预留资源总量与第四步计算任务所需的资源量之间的差额;如果预留资源总量大于计算任务所需的资源量,则直接进行后续的资源调度操作;如果预留资源总量小于计算任务所需的资源量,则计算可伸缩应用虚拟机能够释放的资源规模,如果预留资源总量与能够释放的资源规模之和大于计算任务所需要的资源量,则直接进行后续的资源调度操作;如果预留资源总量与能够释放的资源规模之和小于计算任务所需的资源量时,根据最大满足原则进行资源需求适配。上述面向数据挖掘云的资源调度方法中,所述根据最大满足原则进行资源需求适配具体为:采用退火算法,在可伸缩应用虚拟机集合中计算适配容量;所述可伸缩应用虚拟机集合是指预留资源总量与能够释放的资源规模对应的可伸缩应用虚拟机的集合本文档来自技高网
...

【技术保护点】
1.一种面向数据挖掘云的资源调度方法,其特征在于:所述资源调度针对的是可伸缩应用虚拟机的资源调度,所述资源调度方法包括如下步骤:第一步:基于统一资源指标约数规格定制基本计算单元,将基本计算单元封装为可伸缩应用虚拟机;所述统一资源指标约数规格包括:CPU核数、内存大小;在后续的资源调度中基于基本计算单元实现可伸缩应用虚拟机的资源调度,基本计算单元能够根据计算任务的需求进行动态创建、维护和撤销;第二步:针对云环境中各种计算任务定义资源需求模板,通过资源需求模板实现计算任务资源需求与底层可调度资源之间的匹配;第三步:建立操作栈,通过操作栈实现资源调度操作的阻塞与操作序列组织管理;第四步:在计算任务启动阶段,计算任务提出的资源调度请求,根据计算任务定义的资源需求模板,计算所需的可伸缩应用虚拟机资源量;第五步:获取当前系统中全部可伸缩应用虚拟机的预留资源总量,根据第四步计算任务所需的资源量进行匹配,确定最终需要压缩的可伸缩虚拟机队列;第六步:在操作栈中构建迁移操作,通过所述迁移操作将第五步得到的可伸缩虚拟机队列中可伸缩应用虚拟机进行迁移,释放对应的计算资源;第七步:汇总释放的计算资源和预留的计算资源得到全部可用计算资源,构造编排操作,通过所述编排操作实现基本计算单元的统一部署;第八步:完成计算资源伸缩,反馈给计算任务等待其执行上层数据挖掘与计算任务在等待过程中,阻塞针对当前基本计算单元的资源调度操作;第九步:计算任务执行完毕后,计算任务提交资源回收请求,调度系统接受该请求;根据计算任务标识在操作栈中获取对应的迁移操作信息;第十步:根据迁移操作信息,将所创建的基本计算单元对应的可伸缩应用虚拟机撤销,回收计算资源;第十一步:根据迁移操作信息,为本次资源调度中迁移的可伸缩应用虚拟机重新构造初始资源环境,并将其迁移到初始资源环境中;第十二步:完成全部资源调度,在操作栈中注销当前操作,解除资源阻塞。...

【技术特征摘要】
1.一种面向数据挖掘云的资源调度方法,其特征在于:所述资源调度针对的是可伸缩应用虚拟机的资源调度,所述资源调度方法包括如下步骤:第一步:基于统一资源指标约数规格定制基本计算单元,将基本计算单元封装为可伸缩应用虚拟机;所述统一资源指标约数规格包括:CPU核数、内存大小;在后续的资源调度中基于基本计算单元实现可伸缩应用虚拟机的资源调度,基本计算单元能够根据计算任务的需求进行动态创建、维护和撤销;第二步:针对云环境中各种计算任务定义资源需求模板,通过资源需求模板实现计算任务资源需求与底层可调度资源之间的匹配;第三步:建立操作栈,通过操作栈实现资源调度操作的阻塞与操作序列组织管理;第四步:在计算任务启动阶段,计算任务提出的资源调度请求,根据计算任务定义的资源需求模板,计算所需的可伸缩应用虚拟机资源量;第五步:获取当前系统中全部可伸缩应用虚拟机的预留资源总量,根据第四步计算任务所需的资源量进行匹配,确定最终需要压缩的可伸缩虚拟机队列;第六步:在操作栈中构建迁移操作,通过所述迁移操作将第五步得到的可伸缩虚拟机队列中可伸缩应用虚拟机进行迁移,释放对应的计算资源;第七步:汇总释放的计算资源和预留的计算资源得到全部可用计算资源,构造编排操作,通过所述编排操作实现基本计算单元的统一部署;第八步:完成计算资源伸缩,反馈给计算任务等待其执行上层数据挖掘与计算任务在等待过程中,阻塞针对当前基本计...

【专利技术属性】
技术研发人员:郭皓明魏闫艳
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1