一种基于强化学习的车联网边缘计算资源调度方法技术

技术编号：40807793 阅读：27 留言：0更新日期：2024-03-28 19:30

本发明专利技术公开一种基于强化学习的车联网边缘计算资源调度方法；属于车载边缘计算技术领域；利用LSTM模型对预处理后的数据进行训练，预测数据的流行度；结合强化学习的当前状态进行训练，将流行度作为强化学习的状态；根据从边缘设备计算的时延以及消耗的能量作为奖励R，得到最优的任务卸载策略；主边缘设备根据接收的从边缘设备发送的计算结果进行任务处理的性能评估，将性能评估结果作为奖励R反馈给强化学习训练过程得到更新后的Q值，主边缘设备对任务卸载策略进行再优化，进一步调整任务资源分配；根据车辆状态和任务类型等因素，动态地调整资源分配策略，能够高效地利用车辆边缘计算的资源，提高计算的效率、性能和资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于车载边缘计算，具体涉及一种基于强化学习的车联网边缘计算资源调度方法。

技术介绍

1、在车联网中，车辆通过无线通信技术进行信息交换，可以实现车辆之间的协同，提高路况信息的准确性和实时性，促进交通安全和效率。然而，由于车辆资源和计算能力有限，车联网应用需要依赖于边缘计算，将计算任务卸载到边缘设备上进行处理，以减少通信延迟和降低能耗。

2、现有技术中，已经有一些任务卸载和资源分配的方法。例如，可以采用虚拟机的方式，在边缘设备上创建虚拟机来执行任务。也可以采用基于规则的方法，根据任务类型和车辆状态等因素，静态地分配任务和资源。此外，还有一些基于机器学习的方法，如基于神经网络的方法，可以自适应地学习任务卸载和资源分配策略。然而，现有技术中仍然存在一些问题：

3、1.现有的静态分配方法往往无法适应复杂的车联网环境和动态的交通状况，无法实现最佳性能和用户体验；

4、2.现有方法面对车联网场景时，往往没有考虑到任务卸载和资源分配的时延和能耗问题，无法在实际应用中满足实时性和能耗要求。

5、因此，如何在车联网边缘设备上进行任务卸载和资源分配，以实现最佳性能和用户体验，成为当前车联网研究的重点。

技术实现思路

1、本专利技术针对上述现有技术存在问题，提出一种基于强化学习的车联网边缘计算资源调度方法。以实现更为高效的任务卸载和资源分配，在实际应用中具有较好的实时性和能耗优化性能，为用户提供更好的服务和体验。

2、本专利技术是通过以

3、步骤1，采集车辆状态和任务流量等数据xt，并传输给主边缘设备；

4、步骤2，主边缘设备对采集到的数据xt进行预处理后得到数据

5、步骤3，构建lstm预测模型，并对步骤2中经过预处理后的数据进行训练，对缓存的训练结果进行排序，预测数据的流行度curq；

6、步骤4，基于步骤3中得到的流行度curq，结合强化学习训练的当前状态进行训练，将流行度curq作为强化学习的状态，主边缘设备将任务量分配给从边缘设备的行动作为动作空间；在进行任务分配时，根据从边缘设备计算的时延以及消耗的能量作为奖励r，根据奖励r决定下一次的任务量分配，得到最优的任务卸载策略；

7、步骤5，主边缘设备根据最优任务卸载策略对需要计算的任务量分配到从边缘设备中进行计算，并将计算结果反馈给主边缘设备；

8、步骤6，主边缘设备根据接收的从边缘设备发送的计算结果进行任务处理的性能评估，将性能评估结果作为奖励r反馈给步骤4强化学习训练过程得到更新后的q值，根据更新后的q值，主边缘设备对任务卸载策略进行再优化，进一步调整任务资源分配。

9、进一步地，步骤2所述的主边缘设备对采集到的数据xt进行预处理后得到数据具体步骤如下：

10、步骤2.1标准化：将数据xt进行标准化，以便将数据缩放到[0,1]的范围内，以确保不同特征的权重相当。

11、步骤2.2序列化：将标准化后的数据整理成时间序列的形式，以便lstm能够捕捉时间依赖性。每个时间步都是网络的一个输入。

12、步骤2.3特征工程：提取步骤2.2中数据的自相关特征和时间间隔特征，以帮助网络更好地学习数据的模式。

13、进一步地，所述步骤3中lstm模型，其特征在于，lstm模型有三种类型的门：

14、忘记门ft，决定要忘记前一个单元格状态中的哪些信息；它将先前的隐藏状态和当前输入作为输入，并输出一个向量，其中包含先前单元格状态中每个元素的0到1之间的值；值为0意味着相应的元素被完全遗忘，而值为1意味着它被完全保留；

15、输入门int，决定向单元状态添加哪些新信息；它将先前的隐藏状态和当前输入作为输入，并为新的候选单元格状态中的每个元素输出一个值在0到1之间的向量；值为0意味着对应的元素不应该被添加，而值为1意味着它应该被完全添加；

16、输出门outt，决定从当前单元格状态输出哪些信息作为隐藏状态；它将先前的隐藏状态和当前输入作为输入，并输出当前单元格状态中每个元素的值在0到1之间的向量；这些值乘以当前隐藏状态以产生输出。

17、通过对lstm模型进行改进，提高了模型的预测精度和泛化能力。具体地，在lstm模型中引入注意力机制，即对缓存的内容按时序进行排序得到序列idxq，使模型能够更好地捕捉数据中的时序依赖关系。同时，通过概率计算得到流行度curq防止模型过拟合，提高模型的鲁棒性。

18、步骤3所述的对步骤2中经过预处理后的数据进行训练，对缓存的训练结果进行排序，预测数据的流行度curq，具体为：

19、步骤3.1，在t-1时刻lstm模型的输出任务数据ht-1和t时刻的数据输入到lstm模型中，通过遗忘门控制数据的遗忘；遗忘控制函数ft如下：

20、

21、式中，δ为非线性激活函数，αf为遗忘控制函数的递归权矩阵，βf为遗忘控制函数的偏差向量；

22、步骤3.2，在t-1时刻内lstm模型的输出任务数据ht-1和t时刻的数据输入到lstm模型中，通过输入门控制数据保留，并创建t时刻的状态ct，保留控制函数int和状态ct具体如下；

23、

24、

25、式中，αin为保留控制函数的递归权矩阵，βin为保留控制函数的偏差向量；tanh为非线性激活函数，αc为状态ct的递归权矩阵，βc为状态ct的偏差向量；

26、步骤3.3、根据步骤3.1中的遗忘控制函数ft和步骤3.2中的状态ct更新得到t+1时刻的状态ct+1；具体的公式如下：

27、

28、式中，ct-1为t-1时刻的状态；

29、步骤3.4、利用输出门控制输出本次训练的结果ht，并将ht作为下一次训练的输入，具体公式如下：

30、

31、ht＝outt·tanh(ct+1)

32、式中，αout为控制输出函数outt的递归权矩阵，βout为控制输出函数的outt偏差向量；

33、步骤3.5、对步骤3.4中的每一次训练结果ht进行缓存，缓存的结果记为：

34、

35、对缓存的内容进行排序，得到排序后的索引向量：

36、idxq＝{idx1,idx2,idx3,…,…,idxw}

37、步骤3.6、将索引向量作为概率模型的输入，通过概率计算得到流行度curq；概率模型公式如下：

38、

39、式中，idxq是索引向量，τ概率模型中的参数；w是索引的最大值。

40、进一步地，步骤4中，具体如下：

41、强化学习训练中整个车联网网络作为强化学习的环境，将流行度curq作为强化学习的状态，主边缘设备将任务量分配给从边缘设备的行动作为动作空间；在进本文档来自技高网...

【技术保护点】

1.一种基于强化学习的车联网边缘计算资源调度方法，其特征在于，所述方法如下：

2.根据权利要求1所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，步骤2所述的主边缘设备对采集到的数据xt进行预处理后得到数据具体步骤如下：

3.根据权利要求1所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，LSTM预测模型包括三种类型的门：遗忘门、输入门、输出门。

4.根据权利要求3所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，步骤3所述的对步骤2中经过预处理后的数据进行训练，对缓存的训练结果进行排序，预测数据的流行度Curq，具体为：

5.根据权利要求1所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，步骤4中，具体为：

6.根据权利要求5所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，步骤4.5中，目标Q值的计算公式如下：

7.根据权利要求1所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，奖励R定义如下：

【技术特征摘要】

1.一种基于强化学习的车联网边缘计算资源调度方法，其特征在于，所述方法如下：

3.根据权利要求1所述的基于强化学习的车联网边缘计算资源调度方法，其特征在于，lstm预测模型包括三种类型的门：遗忘门、输入门、输出门。

4.根据权利要求3所述的基于强化学习的车联网边缘计算资源调度方法，...

【专利技术属性】
技术研发人员：郭永安，狄杰斯，王宇翱，奚城科，钱琪杰，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人