一种基于强化学习的集中式数据处理时间优化方法技术

技术编号:25947530 阅读:17 留言:0更新日期:2020-10-17 03:39
本发明专利技术公开了一种基于强化学习的集中式数据处理时间优化方法,包括如下步骤:用户输入需要执行的数据处理任务的运算图,SDN控制器提供当前的网络资源图;将获得的运算图和网络资源图发送给强化学习调度器,请求强化学习调度器执行调度操作;强化学习调度器接收到运算图和网络资源图后,循环执行强化学习调度操作,生成最终的部署图;控制器根据部署图,控制网络中各个设备执行数据处理任务;当任务执行完成后,收集任务的执行时间返回给时间估计器;时间估计器根据真实的执行时间,训练自身的估计函数,本发明专利技术方法实现整个网络中从数据中心到边缘设备资源的集中调度,提供优化数据处理任务的处理时间服务。

【技术实现步骤摘要】
一种基于强化学习的集中式数据处理时间优化方法
本专利技术涉及一种集中式数据处理时间优化方法,尤其涉及一种基于强化学习的集中式数据处理时间优化方法,属于计算机网络和机器学习领域的交叉

技术介绍
软件定义网络(SDN)技术,一如其名是以软件定义网络,更具体地来说,是以软件的形式定义网络的控制平面逻辑,打破传统分布式网络架构中,复杂多样的控制平面逻辑需要复杂多样的专用硬件设备实现的局面。在传统分布式网络架构中,网络的控制平面与数据平面的功能集中在同一台设备当中,这使得逻辑上容易发生变动的控制平面功能无法快速更新换代,阻碍了新类型网络的发展与推广。在本方法中,由于需要调用整个网络中包括数据中心和边缘设备在内的资源用于数据处理,涉及到较为复杂的资源调度、任务分派和数据转发,需要SDN提供灵活的网络控制与转发功能,以在整个网络中实现方法所需的复杂调度逻辑。在传统的数据处理任务的工作模式中,来自终端的数据通常均由网络中顶层的数据中心进行处理,靠近终端的各层边缘设备只是扮演着终端和数据中心之间的数据收集和转发者的角色。这种工作模式虽然简单直接,但是在数据中心面临大量终端短时间爆发式地发送数据处理请求时,会因为接收的请求超出数据中心的处理能力而显著拖慢其接收请求和数据处理的速度,造成任务的执行耗时过长。而实际上,大量的数据请求按照其运算逻辑可以在靠近终端的边缘设备处就近处理,从而减少最终发送到数据中心的数据请求和数据总量。传统的工作模式无法利用边缘设备的能力,将数据请求集中在数据中心进行处理,是其耗时过长的一个重要原因。
技术实现思路
专利技术目的:本专利技术的目的为提供一种提高整个数据处理任务的完成效率、降低处理时间的基于强化学习的集中式数据处理时间优化方法。技术方案:本专利技术的基于强化学习的集中式数据处理时间优化方法,包括如下步骤:(1)SDN控制器提供当前的网络资源图GR;(2)强化学习调度器接收来自用户的运算图GC和来自SDN控制器的网络资源图GR,并循环执行强化学习调度操作,生成最终的部署图GD;(3)控制器根据部署图GD,控制网络中各个设备执行数据处理任务;(4)当任务执行完成后,SDN控制器收集任务的执行时间返回给时间估计器;(5)时间估计器根据真实的执行时间,训练自身的估计函数。进一步地,运算图GC为规定运算的运算过程、使用的数据量的一个有向无环图,网络资源图GR为整个网络中运算、存储、带宽资源在网络中设备结点分配状况的拓扑图,部署图GD为运算任务在设备结点中的分布,由强化学习调度器调整,并由约束器生成,SDN控制器为集中式网络架构的控制器,SDN控制器收集整个网络的拓扑信息和设备状况提供给上层应用,并根据上层应用的指示进行路由,控制下层转发设备对数据的转发,以实现具备特定功能的网络,同时SDN控制器接收调度器输出的部署图控制网络中数据的转发,并收集网络的运行数据用于估计器和调度器的训练,时间估计器根据网络中设备结点拥有的资源量和被分配的运算任务情况,估计设备执行完运算任务所花费的时间,估计的时长向量为e,强化学习调度器根据部署图的状态以及估计器对时间的估计,对部署图进行逐步操作,以优化部署图的总执行时间,采用强化学习算法进行学习,约束器检查调度器对部署图的调度动作是否符合约束,如果符合约束则接受其调度并改变部署,否则维持部署不变。进一步地,步骤(2)中,强化学习调度器调度生成部署图的方法为运行强化学习中的Q-learning算法以执行调度并生成部署图,具体步骤如下:(1)设置步长α∈(0,1]、随机度∈>0、循环次数N;(2)初始化动作值函数QW(GD,e,a)的参数W;(3)监听是否有操作请求,如果有调度请求则进入下一步,否则继续监听;(4)根据GC和GR初始化部署图GD,即将GC的所有运算节点全部部署到GR中的运算中心节点上,并由时间估计器生成时间估计e=TimeEval(GD);(5)根据调度策略π∈计算当前应采取的调度动作a=π∈(GD,e);(6)执行调度动作a,由约束器生成相应的部署图G′D,由时间估计器生成时间估计e′=TimeEval(G′D),c.计算奖励R=e-e′;(7)更新动作值函数:其中,γ为折扣率,γ取值范围为0到1之间的实数;(8)更新当前部署和当前时间估计:GD=G′De=e′(9)如果当前未达到循环次数N,则回到S5继续执行:,否则进入下一步;(10)输出GD作为最终部署图。优选的,调度策略π∈(GD,e)为根据动作值函数QW生成的一个策略,调度策略的逻辑如下:在区间(0,1]之间随机取一个实数r;如果r>∈,则π∈(GD,e)选取使得QW(GD,e,a)取得最大值的调度动作a;如果r≤∈,则π∈(GD,e)为随机生成的一个调度动作a;时间估计器TimeEval(GD)根据当前的部署图GD生成该部署图执行的总时间的估计值,估计器采用通用的深度学习方法,在接收到来自控制器的反馈时,进行训练以提高估计的准确度。本专利技术的基于强化学习的集中式数据处理时间优化系统,包括时间估计器、强化学习调度器和SDN控制器,时间估计器即接受来自强化学习调度器的部署图,并将时间估计发送给强化学习调度器,时间估计器接受来自SDN控制器的部署图的真实执行时间,SDN控制器根据部署图控制网络节点之间的运算部署以及数据转发。有益效果:与现有技术相比,本专利技术具有如下显著优点:解决传统的数据中心数据任务处理方式在面临终端数据爆发时的处理耗时过长的问题,将数据处理任务在整个网络的各层边缘设备以及数据中心之间进行合理地分派,降低终端数据爆发时数据中心的负载,充分利用整个网络中的边缘设备的处理能力为单个数据处理任务服务,以提高整个数据处理任务的完成效率,降低其处理时间;本专利技术方法使用SDN技术获取网络的全局信息以及对网络整体的数据进行转发控制,并使用强化学习技术处理具体的数据任务分发和资源调度,从而实现整个网络中从数据中心到边缘设备资源的集中调度,提供优化数据处理任务的处理时间服务。附图说明图1为本专利技术基于强化学习的集中式数据处理时间优化方法的主流程;图2为本专利技术的强化学习调度流程图;图3为本专利技术基于强化学习的集中式数据处理时间优化方法的结构及其中部件之间的信息流。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。如图1-图3所示,本专利技术的基于强化学习的集中式数据处理时间优化方法,包括如下步骤:(1)用户输入需要执行的数据处理任务的运算图GC,SDN控制器提供当前的网络资源图GR;(2)将获得的运算图GC和网络资源图GR发送给强化学习调度器,请求其执行调度操作;(3)强化学习调度器接收到运算图GC和网络资源图GR后,循环执行强化学习调度操作,生成最终的部署图GD;(4)控制器根据部署图GD,控制网络中各个设本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的集中式数据处理时间优化方法,其特征在于,包括如下步骤:/n(1)SDN控制器提供当前的网络资源图G

【技术特征摘要】
1.一种基于强化学习的集中式数据处理时间优化方法,其特征在于,包括如下步骤:
(1)SDN控制器提供当前的网络资源图GR;
(2)强化学习调度器接收来自用户的运算图GC和来自SDN控制器的网络资源图GR,并循环执行强化学习调度操作,生成最终的部署图GD;
(3)控制器根据部署图GD,控制网络中各个设备执行数据处理任务;
(4)当任务执行完成后,SDN控制器收集任务的执行时间返回给时间估计器;
(5)时间估计器根据真实的执行时间,训练自身的估计函数。


2.根据权利要求1所述基于强化学习的集中式数据处理时间优化方法,其特征在于:所述运算图GC为规定运算的运算过程、使用的数据量的一个有向无环图。


3.根据权利要求1所述基于强化学习的集中式数据处理时间优化方法,其特征在于:所述网络资源图GR为整个网络中运算、存储、带宽资源在网络中设备结点分配状况的拓扑图;所述部署图GD为运算任务在设备结点中的分布,由强化学习调度器调整,并由约束器生成。


4.根据权利要求3所述基于强化学习的集中式数据处理时间优化方法,其特征在于:所述约束器检查强化学习调度器对部署图的调度动作是否符合约束,如果符合约束则接受强化学习调度器调度并改变部署,否则维持部署不变。


5.根据权利要求1所述基于强化学习的集中式数据处理时间优化方法,其特征在于:所述SDN控制器为集中式网络架构的控制器,所述SDN控制器收集整个网络的拓扑信息和设备状况提供给上层应用,并根据上层应用的指示进行路由,控制下层转发设备对数据的转发,同时所述SDN控制器接收强化学习调度器输出的部署图控制网络中数据的转发,并收集网络的运行数据用于估计器和调度器的训练。


6.根据权利要求1所述基于强化学习的集中式数据处理时间优化方法,其特征在于:所述时间估计器根据网络中设备结点拥有的资源量和被分配的运算任务情况,估计设备执行完运算任务所花费的时间。


7.根据权利要求1所述基于强化学习的集中式数据处理时间优化方法,其特征在于:所述强化学习调度器根据部署图的状态以及估计器对时间的估计,对部署图进行逐步操作,采用强化学习算法进行学习。


8.根据权利要求1所述基于强化学习的集中式数据处理时间...

【专利技术属性】
技术研发人员:赵俊峰宋浒夏飞巫乾军储诚贵陈宇航董清泉俞俊
申请(专利权)人:国网江苏省电力有限公司信息通信分公司国电南瑞科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1