基于深度学习预测的分布计算系统及其运行方法技术方案

技术编号:21458083 阅读:44 留言:0更新日期:2019-06-26 06:11
本发明专利技术涉及数据处理技术,公开了一种基于深度学习预测的分布计算系统及其运行方法。在本申请的分布计算系统中,数据集群定时从每个计算节点获取运行状态和任务处理速率,负载预测节点使用LSTM网络根据每个计算节点的运行状态和任务处理速率来预测每个计算节点预定时间后的负载,用户节点然后根据每个计算节点预定时间后的负载来创建或关闭计算节点,可以自动对计算节点进行动态管理,提前对各计算节点进行调度,分配计算资源。

【技术实现步骤摘要】
基于深度学习预测的分布计算系统及其运行方法
本专利技术涉及数据处理技术,特别涉及基于深度学习预测的分布计算系统及其运行方法。
技术介绍
现有很多集群管理系统,比如HadoopYARN、ApacheMesos、AmazonEC2,虽然都有着强大的功能,并针对不同的计算需求提供了各种类型的工作模式,但其终究使用内部固定策略调度计算资源,对于突然高负荷的计算请求会产生很高的延迟。另外,类似YARN和Mesos,并不能动态的扩展计算节点,更多地着重于均衡单节点中的计算核心。本专利技术的专利技术人发现,随着大数据计算和分布式计算的发展,合理的调度计算资源和计算节点成为提高计算体系效率的关键。
技术实现思路
本专利技术的目的在于提供一种基于深度学习预测的分布计算系统及其运行方法,可以对计算节点进行动态管理,提前对各计算节点进行调度、分配计算资源。为解决上述技术问题,本专利技术的实施方式公开了一种基于深度学习预测的分布计算系统,该分布计算系统包括调度节点、多个计算节点和数据集群;数据集群用于定时从每个计算节点获取运行状态和任务处理速率,运行状态包括计算节点的内存占用率和处理器占用率;调度节点包括:负载预测节点,用于从数据集群获取每个计算节点的运行状态和任务处理速率,将每个计算节点的运行状态和任务处理速率输入到LSTM(LongShortTermMemory,长短期记忆)网络得到每个计算节点的负载参数并判断所有计算节点的平均负载参数是否大于第一负载阈值或小于第二负载阈值,每个计算节点的负载参数表示预定时间后的负载;以及用户节点,用于当负载预测节点确定所有计算节点的平均负载参数大于第一负载阈值时,创建新的计算节点,并当负载预测节点确定所有计算节点的平均负载参数小于第二负载阈值时,关闭部分计算节点。本专利技术的实施方式还公开了一种基于深度学习预测的分布计算系统的运行方法,该分布计算系统包括调度节点、多个计算节点和数据集群,调度节点包括负载预测节点和用户节点;该运行方法包括以下步骤:数据集群定时从每个计算节点获取运行状态和任务处理速率,运行状态包括计算节点的内存占用率和处理器占用率;负载预测节点从数据集群获取每个计算节点的运行状态和任务处理速率,并将每个计算节点的运行状态和任务处理速率输入到长短期记忆LSTM网络得到每个计算节点的负载参数,每个计算节点的负载参数表示预定时间后的负载;负载预测节点判断所有计算节点的平均负载参数是否大于第一负载阈值或小于第二负载阈值;若负载预测节点确定所有计算节点的平均负载参数大于第一负载阈值,用户节点创建新的计算节点,若负载预测节点确定所有计算节点的平均负载参数小于第二负载阈值,用户节点关闭部分计算节点。本专利技术实施方式与现有技术相比,主要区别及其效果在于:在本申请中,数据集群定时从每个计算节点获取运行状态和任务处理速率,负载预测节点使用LSTM网络根据每个计算节点的运行状态和任务处理速率来预测每个计算节点预定时间后的负载,用户节点然后根据每个计算节点预定时间后的负载来创建或关闭计算节点,可以自动对计算节点进行动态管理,提前对各计算节点进行调度、分配计算资源。进一步地,根据所有计算节点的负载增幅和负载降幅来创建和关闭相应数量的计算节点,可以自动部署好相应的运行环境。进一步地,通过定向发送或消息发送/订阅的方式分发任务,并且根据每个计算节点预定时间后的负载的分布状态来提前调整各计算节点的任务分发,可以更为灵活和合理地分配计算资源。进一步地,在上一次训练后继续获取预定量的训练数据以对LSTM网络进行更新,可以确保LSTM网络的准确性。附图说明图1是本申请第一实施方式中一种基于深度学习预测的分布计算系统的结构示意图。图2是本申请第一实施方式中一种基于深度学习预测的分布计算系统中使用的LSTM网络的结构示意图。图3是本申请第二实施方式中一种基于深度学习预测的分布计算系统的结构示意图。图4是本申请第二实施方式中一种基于深度学习预测的分布计算系统中调度节点的结构示意图。图5是本申请第三实施方式中一种基于深度学习预测的分布计算系统的运行方法的流程示意图。图6是本申请第四实施方式中一种基于深度学习预测的分布计算系统的运行方法的流程示意图。图7是本申请第四实施方式中一种基于深度学习预测的分布计算系统的运行方法的流程示意图。具体实施方式在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。并且,说明书中提到的各技术特征之间都可以互相组合(除非产生矛盾),以构成新的或优选的技术方案。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的实施方式作进一步地详细描述。本申请第一实施方式涉及一种基于深度学习预测的分布计算系统。图1是根据一个实施例的基于深度学习预测的分布计算系统的结构示意图。如图1所示,该分布计算系统包括调度节点、多个计算节点和数据集群。多个计算节点(EngineNode)形成计算集群(ComputingCluster),用于接收来自调度节点的计算任务进行数据的计算处理,并定时将例如自身的运行状态、任务的处理速率、等待队列中的任务数据存储到数据集群中,例如存储到数据集群的时间序列数据库(TSDB)中。数据集群(DBCluster)用于定时从每个计算节点获取运行状态和任务处理速率,运行状态包括计算节点的内存占用率和处理器(CPU)占用率。调度节点(Scheduler)是分布式计算系统的核心,主要提供节点管理和任务分发两部分功能。在一实施例中,节点管理依托云平台(比如阿里云)进行计算节点的弹性扩充和自动部署。用户只需要根据预算确定计算节点数量,调度节点会在云平台上自动创建计算节点,并完成相关软件的安装,之后,调度节点(Scheduler)会根据用户的计算任务数量进行计算节点的撤销和创建。可以理解,节点管理也可以通过其他方式进行节点扩充和自动部署,例如可以通过虚拟机管理软件,比如VmwareESX提供的接口进行管理,也可以通过docker管理命令进行管理,并不限于上述云平台。如图1所示,调度节点包括负载预测节点和用户节点。负载预测节点用于从数据集群获取每个计算节点的运行状态和任务处理速率,将每个计算节点的运行状态和任务处理速率输入到LSTM网络得到每个计算节点的负载参数并判断所有计算节点的平均负载参数是否大于第一负载阈值或小于第二负载阈值,每个计算节点的负载参数表示预定时间后的负载。也就是说,负载预测节点负责收集各计算节点的运行状态并预测未来短时间内计算节点的负载,预定时间可以例如是5秒、7秒等,可以根据实际需要进行设置。负载预测节点里包含了完整的深度学习框架用于构建LSTM网络。上述数据集群还用于定时从每个计算节点获取原始数据处理速率、队列中的原始数据数量和队列中的任务数量,则负载预测节点用于从该数据集群获取预定量的训练数据,并对预定量的训练数据进行训练得到该LSTM网络,该训练数据包括各计算节点的运行状态、任务处理速率、原始数据处理速率、队列中的任务数量和队列中的原始数据数量。可以理解,预定量可以根据实际经验进行设置。一个任务可能需要用到许多原始数据,或很少的本文档来自技高网...

【技术保护点】
1.一种基于深度学习预测的分布计算系统,其特征在于,所述分布计算系统包括调度节点、多个计算节点和数据集群;所述数据集群用于定时从每个计算节点获取运行状态和任务处理速率,所述运行状态包括所述计算节点的内存占用率和处理器占用率;所述调度节点包括:负载预测节点,用于从所述数据集群获取每个计算节点的运行状态和任务处理速率,将每个计算节点的运行状态和任务处理速率输入到长短期记忆LSTM网络得到每个计算节点的负载参数并判断所有计算节点的平均负载参数是否大于第一负载阈值或小于第二负载阈值,每个计算节点的负载参数表示预定时间后的负载;以及用户节点,用于当所述负载预测节点确定所有计算节点的平均负载参数大于第一负载阈值时,创建新的计算节点,并当所述负载预测节点确定所有计算节点的平均负载参数小于第二负载阈值时,关闭部分计算节点。

【技术特征摘要】
1.一种基于深度学习预测的分布计算系统,其特征在于,所述分布计算系统包括调度节点、多个计算节点和数据集群;所述数据集群用于定时从每个计算节点获取运行状态和任务处理速率,所述运行状态包括所述计算节点的内存占用率和处理器占用率;所述调度节点包括:负载预测节点,用于从所述数据集群获取每个计算节点的运行状态和任务处理速率,将每个计算节点的运行状态和任务处理速率输入到长短期记忆LSTM网络得到每个计算节点的负载参数并判断所有计算节点的平均负载参数是否大于第一负载阈值或小于第二负载阈值,每个计算节点的负载参数表示预定时间后的负载;以及用户节点,用于当所述负载预测节点确定所有计算节点的平均负载参数大于第一负载阈值时,创建新的计算节点,并当所述负载预测节点确定所有计算节点的平均负载参数小于第二负载阈值时,关闭部分计算节点。2.根据权利要求1所述的分布计算系统,其特征在于,所述用户节点用于当所述负载预测节点确定所有计算节点的平均负载参数大于第一负载阈值时,根据所有计算节点的负载增幅来创建相应数量的计算节点,并当所述负载预测节点确定所有计算节点的平均负载参数小于第二负载阈值时,根据所有计算节点的负载降幅来关闭相应数量的计算节点。3.根据权利要求1所述的分布计算系统,其特征在于,所述调度节点还包括分发节点,所述分发节点用于通过定向发送或以消息发布/订阅的方式向所述计算节点分发任务,所述分发节点还用于将所述负载预测节点所得到的各计算节点的负载参数按从大到小的顺序进行排序,并在排序后判断相邻负载参数的差值是否大于预定阈值,若有相邻负载参数的差值大于所述预定阈值,则所述分发节点对各计算节点的任务分发进行调整以使得相邻负载参数的差值不大于所述预定阈值。4.根据权利要求1所述的分布计算系统,其特征在于,所述数据集群还用于定时从每个计算节点获取原始数据处理速率、队列中的原始数据数量和队列中的任务数量;所述负载预测节点用于从所述数据集群获取预定量的训练数据,并对预定量的训练数据进行训练得到所述LSTM网络,所述训练数据包括各计算节点的运行状态、任务处理速率、原始数据处理速率、队列中的任务数量和队列中的原始数据数量。5.根据权利要求4所述的分布计算系统,其特征在于,所述负载预测节点用于在上一次训练后继续从所述数据集群获取预定量的训练数据,并对上一次训练后获取的预定量的训练数据进行训练以更新所述LSTM网络。6.一种基于深度学习预测的分布计算系统的运行方法,其特征在于,所述分布计算系统包括调度节点、多个计算节点和数据集...

【专利技术属性】
技术研发人员:钱力王剑
申请(专利权)人:华耀中国科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1