一种基于强化学习的边缘计算任务卸载方法技术

技术编号：32550283 阅读：15 留言：0更新日期：2022-03-05 11:49

本发明专利技术公开了一种基于强化学习的边缘计算任务卸载方法，包括以下步骤：S1.建立边缘计算系统模型；S2.普通用户节点产生任务上报至SDN总控制器节点，根据用户任务情况，选择本地计算或卸载计算，在需要进行卸载计算时，通过强化学习方法训练后的SDN总控制器节点根据实时网络状态，频谱资源和计算资源，获得基于边缘节点网络状态的最优卸载策略并反馈至普通用户节点；S3.普通用户节点根据最优卸载策略将任务卸载给服务节点，服务节点执行分配到的计算任务，并将计算结果反馈至普通用户节点。本发明专利技术能够有效缓解计算资源紧张的问题。本发明专利技术能够有效缓解计算资源紧张的问题。本发明专利技术能够有效缓解计算资源紧张的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的边缘计算任务卸载方法

[0001]本专利技术涉及无线通信
，更具体的说是涉及一种基于强化学习的边缘计算任务卸载方法。

技术介绍

[0002]随着通信和计算技术的先进发展，具有联网需求的设备在数量上已经十分庞大，设备功能也呈现多样化的特点，如车联网，智能医疗等可预测的物联网应用也在蓬勃发展，其任务的可容忍时延具有非常严格的要求，而且联网设备数量的庞大必然会存在数据流量的爆发，这些都对传统的云计算的集中式计算处理与大规模数据存储提出了严峻的挑战，主要存在以下问题：1)延迟：设备与云计算中心距离较远，对于一些时延敏感型设备就会造成严重影响，例如车联网中，时延可能会对人的生命安全造成严重威胁；2)流量：设备数量的指数型增长必然也会造成流量的增多，通信堵塞，降低用户体验质量；3)安全及能耗：设备传输信息时，需要经过较长路径容易导致数据丢失或者信息泄露等风险；数据中心的高负载导致的高能耗也是云计算的核心问题。
[0003]上述问题均可由边缘计算加以解决，边缘计算即为将具有一定计算能力、存储能力的计算设备放置在网络边缘，即临近用户侧，为用户提供IT服务环境和计算功能，将原本位于云计算中心的服务和功能“下沉”到移动网络的边缘，在移动网络边缘提供计算、存储、网络和通信资源。这样设备就不需要向云计算中心服务器发送请求，很大程度上减少了通信时延。同时，由于可以在用户附近进行数据处理，减少了路由长度，安全性得到了一定的保障，并且能够有效缓解云计算中心主干道路上的拥塞。
[0004]因此，如何提供一种基

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的边缘计算任务卸载方法，其特征在于，包括以下步骤：S1.建立边缘计算系统模型，边缘计算系统模型包括：普通用户节点、可租用用户节点、MEC服务器节点和SDN总控制器节点，其中，每个SDN总控制器节点下，包括N个泊松分布的普通用户节点N＝{u1,u2,u3,
…
,u
N
}，可租用用户节点和MEC服务器节点作为服务节点共M个，记为K＝{k1,k2,k3,
…
,k
M
}；S2.普通用户节点产生任务上报至SDN总控制器节点，根据用户任务情况，选择本地计算或卸载计算，在需要进行卸载计算时，通过强化学习方法训练后的SDN总控制器节点根据实时网络状态，频谱资源和计算资源，获得基于边缘节点网络状态的最优卸载策略并反馈至普通用户节点；S3.普通用户节点根据最优卸载策略将任务卸载给服务节点，服务节点执行分配到的计算任务，并将计算结果反馈至普通用户节点。2.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，S2中选择本地计算或卸载计算的具体内容包括：普通用户节点产生的一个任务R
i
包括：当前任务的数据包大小d
i
，当前任务的最大可容忍时延当前任务计算能力需求α
i
；根据本地计算能力获取在时隙t时任务计算执行时间具体方法为：若当前任务本地执行所需时间不超过最大可容忍时延则在本地执行，若不是则选择卸载计算。3.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，对SDN总控制器节点进行强化学习训练的内容包括：在每个时隙t，SDN总控制器节点根据当前环境状态s
t
，发布卸载策略进行动作a
t
选择，普通用户节点采取动作a
t
，根据所采取的每个动作a
t
返回一个奖赏值信号r
t+1
和一个新的状态s
t+1
，将新的状态s
t+1
更新当前环境状态s
t
进行循环迭代；针对每个环境状态s
t
和动作a
t
通过Q
‑
learning函数计算Q值，并根据Q值通过Bellman最优方程获取最优策略，使总期望回报最大化；其中，环境状态s
t
∈S，S为所有状态的合集，每个环境状态s包括：系统总开销e，当前信道使用情况g，服务节点有效计算资源f；动作a
t
∈A，A为所有动作的合集。4.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，在迭代过程中，通过学习率δ来进行更新Q值，Q值的更新表达式为:其中，δ(0≤δ≤1)为学习率，表示当前学习的知识对先前学习的知识的影...

【专利技术属性】
技术研发人员：于银辉，郭思宇，程国豪，田子玉，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人