【技术实现步骤摘要】
一种移动边缘计算中基于强化学习的服务迁移方法
[0001]本专利技术属于移动边缘计算领域,特别是涉及一种移动边缘计算中基于强化学习的服务迁移方法。
技术介绍
[0002]移动边缘计算通过将计算资源下放至距离用户更近的各类节点上,为用户提供更好的服务,更好地提高了系统的服务质量(QoS)和提升了用户的服务体验(QoE)。移动边缘计算的出现推动了物联网、5G和运营商个性化服务的发展,同时它也被广泛应用于增强现实(AR)、视频优化加速、视频流分析、物联网(IoT)和车联网等领域之中。移动边缘计算中的主要问题就是任务卸载的问题,而任务卸载主要包括三个方面,分别是任务卸载的决策问题、资源分配问题和移动性管理问题。其中移动性管理问题产生于用户的移动性,一个有效地解决移动性管理问题的方法就是服务迁移。服务迁移通过将运行在距离用户较远距离的服务器上的服务迁移至距离用户较近的服务器,极大地降低了时延,为用户提供了更好的服务。
[0003]已有的服务迁移策略主要通过马尔可夫决策过程、时间窗口技术和预测技术等来实现。服务迁移作为一个由于用户移动性所带来的问题,导致其考虑的往往是长期的优化,因此可以将服务迁移问题建模为时序决策问题来进行求解,而马尔可夫决策过程作为时序决策问题的经典形式化表示,可用于研究服务迁移问题。时间窗口技术和预测技术能够很好地对未来的能耗进行预测,进而能够寻找最优化的服务放置策略,也同样可以用来解决服务迁移问题。
[0004]尽管服务迁移已经使用上述方法进行了诸多研究,但基于马尔可夫决策过程的研究往往对 ...
【技术保护点】
【技术特征摘要】
1.一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,包括以下步骤:S1,根据用户任务所处服务器位置、用户当前所处区域位置以及当前处理任务的服务器负载构建奖励函数;S2,根据用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵;S3,根据所述奖励函数和所述状态转移矩阵,使用价值迭代算法进行迁移决策制定;S4,根据路由之间的时延消耗和网络消耗做规范化处理来赋值链路消耗;S5,根据规范化后的链路消耗,使用强化学习算法进行路径选择并自适应地更新链路选择以适应动态网络的链路变化。2.根据权利要求1所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述根据用户任务所处服务器位置、用户当前所处区域位置以及处理任务服务器负载构建奖励函数,具体包括:(1)使用用户距离处理任务服务器的距离d
t
和处理任务服务器的负载h
t
构建用户服务满意度函数;(2)使用用户距离处理任务服务器的距离d
t
构建迁移消耗函数;(3)使用服务满意度函数和迁移消耗函数的加权和作为奖励函数。3.根据权利要求2所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述(1)使用用户距离处理任务服务器的距离和处理任务服务器的负载构建用户满意度c1(s
t
,a
t
),具体公式为:c1(s
t
,a
t
)=D
‑
μ1d
t
‑
μ2h
t
其中,D表示用户能够获得最大服务满意度,d
t
表示用户t时刻距离处理任务服务器的距离,h
t
表示t时刻处理任务的服务器负载情况,μ1和μ2是比例系数,表示距离和负载对于用户服务满意度的影响程度;d
t
通过计算用户当前位置l
t
=(x
t
,y
t
)与处理任务服务器位置l
s
=(x
s
,y
s
)的欧式距离获得;(2)使用用户距离处理任务服务器的距离d
t
构建迁移消耗函数c2(s
t
,a
t
):c2(s
t
,a
t
)=μ3+μ4d
t
其中,使用距离d
t
的线性函数表示迁移消耗,μ3表示常数消耗,μ4表示距离的影响系数;(3)使用用户服务满意度函数和迁移消耗函数的加权和作为奖励函数r(s,a):其中,a表示迁移决策,a=0表示不进行迁移,a=1表示进行迁移;d
max
表示任务被处理所允许的最大距离,超出该距离会有极大的惩罚M。4.根据权利要求1所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述根据用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵,主要包括:(1)记录用户当前所处位置以及用户前一时刻移动方向;
(2)不同的移动方向会对用户接下来的移动轨迹产生影响,用户的移动模型为用户有较大的概率不改变方向,较小的概率改变方向;(3)基于用户的移动模型与迁移决策,决定下一时刻用户的状态。5.根据权利要求4所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述(1)记录用户前一时刻移动方向z
t
,使用用户当前所处位置l
t
与之前移动方向z
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。