一种移动边缘计算中基于强化学习的服务迁移方法技术

技术编号:33085545 阅读:18 留言:0更新日期:2022-04-15 10:48
本发明专利技术请求保护一种移动边缘计算中基于强化学习的服务迁移方法,包括下列主要步骤:S1,基于用户任务所处服务器位置、用户当前所处区域位置以及处理任务服务器负载构建奖励函数;S2,基于用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵;S3,基于奖励函数和状态转移矩阵,使用价值迭代算法进行迁移决策制定;S4,基于路由之间的时延消耗和网络消耗做规范化处理来赋值链路消耗;S5,基于规范化后的链路消耗,使用强化学习算法进行路径选择并自适应地更新链路选择以适应动态网络的链路变化。本发明专利技术引入移动预测使模型更加符合实际场景;使用强化学习求解动态网络环境下自适应的服务迁移路径。下自适应的服务迁移路径。下自适应的服务迁移路径。

【技术实现步骤摘要】
一种移动边缘计算中基于强化学习的服务迁移方法


[0001]本专利技术属于移动边缘计算领域,特别是涉及一种移动边缘计算中基于强化学习的服务迁移方法。

技术介绍

[0002]移动边缘计算通过将计算资源下放至距离用户更近的各类节点上,为用户提供更好的服务,更好地提高了系统的服务质量(QoS)和提升了用户的服务体验(QoE)。移动边缘计算的出现推动了物联网、5G和运营商个性化服务的发展,同时它也被广泛应用于增强现实(AR)、视频优化加速、视频流分析、物联网(IoT)和车联网等领域之中。移动边缘计算中的主要问题就是任务卸载的问题,而任务卸载主要包括三个方面,分别是任务卸载的决策问题、资源分配问题和移动性管理问题。其中移动性管理问题产生于用户的移动性,一个有效地解决移动性管理问题的方法就是服务迁移。服务迁移通过将运行在距离用户较远距离的服务器上的服务迁移至距离用户较近的服务器,极大地降低了时延,为用户提供了更好的服务。
[0003]已有的服务迁移策略主要通过马尔可夫决策过程、时间窗口技术和预测技术等来实现。服务迁移作为一个由于用户移动性所带来的问题,导致其考虑的往往是长期的优化,因此可以将服务迁移问题建模为时序决策问题来进行求解,而马尔可夫决策过程作为时序决策问题的经典形式化表示,可用于研究服务迁移问题。时间窗口技术和预测技术能够很好地对未来的能耗进行预测,进而能够寻找最优化的服务放置策略,也同样可以用来解决服务迁移问题。
[0004]尽管服务迁移已经使用上述方法进行了诸多研究,但基于马尔可夫决策过程的研究往往对于环境因素考虑不充足,同时也较少考虑用户的实际移动特性,并且迁移决策制定后如何进行迁移的问题也很少被提到。因此,综合考虑多种环境因素做出迁移决策,并选择合适的迁移路径至关重要。
[0005]经过检索,申请公开号为CN110347495A,一种使用深度强化学习进行移动边缘计算的任务迁移方法,先设定系统模型各参数,再描述强化学习中的决策公式,然后基于公式给出任务迁移算法;通过本方法能够获得高效的任务迁移机制,而高效的任务迁移机制能够提高系统实时性,充分利用计算资源,并减少能耗;本方法同时运用了深度强化学习思想进行任务调度,即决策是否迁移计算任务,尤其使用了马尔可夫决策过程,能够在极短时间内给出较优解,实时性强;本方法适用于用户处在高速运动状态时,解决是否更换使用的服务器基站问题。在该专利中,通过使用深度强化学习算法求解移动边缘计算中任务迁移问题,但是由于移动状态的不确定性,往往不能够覆盖用户全部移动轨迹。本专利通过使用用户之前移动方向预测用户之后移动方向,进而构建用户移动模型,再结合迁移与否的决策构建状态转移矩阵,能够覆盖所有可能的用户移动状态,进而能够求解更加符合实际场景的迁移决策问题;同时本专利还针对迁移路径的选择问题使用强化学习算法进行了求解。
[0006]申请公开号为CN110830560A,一种基于强化学习的多用户移动边缘计算迁移方
法,包括以下步骤:首先移动设备确定当前工作负载到达率、可再生能源和电池电量等状态;然后通过访问动作状态值矩阵,根据∈

greedy策略决定在本地处理的任务量并采取相应动作;再计算可以反映当前动作好坏的奖赏值并以此更新动作状态值矩阵;最后计算移动设备的总成本(包括延迟成本和计算成本)。本专利技术将强化学习应用于5G关键技术之一的移动边缘计算技术,并结合Q

learning无模型的优势,制定了移动设备的任务分配策略,显著减少了移动设备的成本。该专利通过强化学习求解了多用户任务迁移问题,主要用于解决任务卸载过程中系统的长期成本优化问题。与本专利求解不同位置不同移动方向下迁移决策的制定问题有所不同,同时本专利还求解了迁移路径选择问题。

技术实现思路

[0007]本专利技术旨在解决现有移动边缘计算中的服务迁移问题,提出了一种综合考虑多种环境因素影响和移动预测的迁移决策制定模型并使用价值迭代算法对问题进行求解;同时使用强化学习算法来实现动态网络环境下自适应迁移路径的选择。本专利技术的技术方案如下:
[0008]一种移动边缘计算中基于强化学习的服务迁移方法,其包括以下步骤:
[0009]S1,根据用户服务所处服务器位置、用户当前所处区域位置以及当前处理任务的服务器负载构建奖励函数;
[0010]S2,根据用户当前所处位置,之前移动方向以及是否迁移构建状态转移矩阵;
[0011]S3,根据所述奖励函数和所述状态转移矩阵,使用价值迭代算法进行迁移决策制定;
[0012]S4,根据路由之间的时延消耗和网络消耗做规范化处理来赋值链路消耗;
[0013]S5,根据规范化后的链路消耗,使用强化学习算法进行路径选择并自适应地更新链路选择以适应动态网络的链路变化。
[0014]进一步的,S1所述根据用户服务所处服务器位置、用户当前所处区域位置以及用户当前服务器负载构建奖励函数,具体包括:
[0015](1)使用用户距离处理任务服务器的距离d
t
和处理任务服务器的负载h
t
构建用户服务满意度函数;
[0016](2)使用用户距离处理任务服务器的距离d
t
构建迁移消耗函数;
[0017](3)使用服务满意度函数和迁移消耗函数的加权和作为奖励函数。
[0018]进一步的,所述(1)使用用户距离处理任务服务器的距离和处理任务服务器的负载构建用户满意度c1(s
t
,a
t
),具体公式为:
[0019]c1(s
t
,a
t
)=D

μ1d
t

μ2h
t
[0020][0021]其中,D表示用户能够获得最大服务满意度,d
t
表示用户t时刻距离处理任务服务器的距离,h
t
代表t时刻处理任务的服务器负载情况,μ1和μ2是比例系数,表示距离和负载对于用户服务满意度的影响程度。d
t
通过计算用户当前位置l
t
=(x
t
,y
t
)与处理任务服务器位置l
s
=(x
s
,y
s
)的欧式距离获得;
[0022](2)使用用户距离处理任务服务器的距离d
t
构建迁移消耗函数c2(s
t
,a
t
):
[0023]c2(s
t
,a
t
)=μ3+μ4d
t
[0024]其中,使用距离d
t
的线性函数表示迁移消耗,μ3表示常数消耗,μ4表示距离的影响系数;
[0025](3)使用用户服务满意度函数和迁移消耗函数的加权和作为奖励函数r(s,a):
[0026][0027]其中,a表示迁移决策,a=0表示不进行迁移,a=本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,包括以下步骤:S1,根据用户任务所处服务器位置、用户当前所处区域位置以及当前处理任务的服务器负载构建奖励函数;S2,根据用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵;S3,根据所述奖励函数和所述状态转移矩阵,使用价值迭代算法进行迁移决策制定;S4,根据路由之间的时延消耗和网络消耗做规范化处理来赋值链路消耗;S5,根据规范化后的链路消耗,使用强化学习算法进行路径选择并自适应地更新链路选择以适应动态网络的链路变化。2.根据权利要求1所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述根据用户任务所处服务器位置、用户当前所处区域位置以及处理任务服务器负载构建奖励函数,具体包括:(1)使用用户距离处理任务服务器的距离d
t
和处理任务服务器的负载h
t
构建用户服务满意度函数;(2)使用用户距离处理任务服务器的距离d
t
构建迁移消耗函数;(3)使用服务满意度函数和迁移消耗函数的加权和作为奖励函数。3.根据权利要求2所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述(1)使用用户距离处理任务服务器的距离和处理任务服务器的负载构建用户满意度c1(s
t
,a
t
),具体公式为:c1(s
t
,a
t
)=D

μ1d
t

μ2h
t
其中,D表示用户能够获得最大服务满意度,d
t
表示用户t时刻距离处理任务服务器的距离,h
t
表示t时刻处理任务的服务器负载情况,μ1和μ2是比例系数,表示距离和负载对于用户服务满意度的影响程度;d
t
通过计算用户当前位置l
t
=(x
t
,y
t
)与处理任务服务器位置l
s
=(x
s
,y
s
)的欧式距离获得;(2)使用用户距离处理任务服务器的距离d
t
构建迁移消耗函数c2(s
t
,a
t
):c2(s
t
,a
t
)=μ3+μ4d
t
其中,使用距离d
t
的线性函数表示迁移消耗,μ3表示常数消耗,μ4表示距离的影响系数;(3)使用用户服务满意度函数和迁移消耗函数的加权和作为奖励函数r(s,a):其中,a表示迁移决策,a=0表示不进行迁移,a=1表示进行迁移;d
max
表示任务被处理所允许的最大距离,超出该距离会有极大的惩罚M。4.根据权利要求1所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述根据用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵,主要包括:(1)记录用户当前所处位置以及用户前一时刻移动方向;
(2)不同的移动方向会对用户接下来的移动轨迹产生影响,用户的移动模型为用户有较大的概率不改变方向,较小的概率改变方向;(3)基于用户的移动模型与迁移决策,决定下一时刻用户的状态。5.根据权利要求4所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述(1)记录用户前一时刻移动方向z
t
,使用用户当前所处位置l
t
与之前移动方向z

【专利技术属性】
技术研发人员:何利刘浩东
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1