一种基于迁移强化学习的车联网传输调度方法技术

技术编号：40471139 阅读：5 留言：0更新日期：2024-02-26 19:08

本发明专利技术属于通信技术领域，特别涉及一种基于迁移强化学习的车联网传输调度方法，包括在软件定义网络框架的控制平面中会收集网络中车辆的数据请求信息，以最小化数据包的传输时延、最大化系统的吞吐量为目标，建立车联网传输调度优化模型；将车联网资源调度的变化场景建模为马尔科夫模型，将软件定义网络中的控制平面作为智能体；构建强化学习模型，包括结合马尔科夫模型所定义的状态空间、行为空间、奖励函数构建DDPG模型中的Actor策略网络和Critic评价网络，并在原车联网环境下进行训练；智能体利用完成训练后的Actor策略网络选择执行的动作；本发明专利技术优化数据包传输的平均时延，明显提高车联网传输调度过程中的服务质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于通信，特别涉及一种基于迁移强化学习的车联网传输调度方法。

技术介绍

1、随着智能汽车和物联网(iot)的出现，车辆联网(iov)正在成为智能交通系统(intelligent transportation system,its)中具有防撞、道路安全、交通转发等前景广阔的技术。在动态复杂的车联网环境中，会产生大量的车辆请求数据，并要求网络具有高容量和严格的超可靠低延迟通信(urllc)。现有的车联网架构并不够智能，无法充分利用有限的网络资源，同时车联网属于高动态网络环境，当网络拓扑结构发生变化时，原拓扑下的传输调度模型需要重新训练后才能适应变化后的网络拓扑，而重新训练模型将需要耗费大量的时间。所以如何优化智能车联网中资源分配以及车联网环境变化后如何快速更新原模型是一个急需解决的问题。

技术实现思路

1、为了解决车联网高动态变化环境下的传输调度问题，本专利技术提出一种基于迁移强化学习的车联网传输调度方法，具体包括以下步骤：

2、在软件定义网络框架的控制平面中会收集网络中车辆的数据请求信息，以最小化数据包的传输时延、最大化系统的吞吐量为目标，建立车联网传输调度优化模型；

3、将车联网资源调度的变化场景建模为马尔科夫模型，将软件定义网络中的控制平面作为智能体；

4、构建强化学习模型，包括结合马尔科夫模型所定义的状态空间、行为空间、奖励函数构建ddpg模型中的actor策略网络和critic评价网络，并在原车联网环境下进行训练；

6、进一步的，以最小化数据包的传输时延、最大化系统的吞吐量为目标建立车联网传输调度优化模型包括：

7、

8、

9、约束条件：

10、其中，m为数据包的数量；n为信道的数量；表示信道j上的数据包传输速率，li表示数据包i的长度，pij表示数据包i在信道j上的功耗；sej表示信道j的频谱效率；xi表示数据包i是否正常传输，其取值为0或1；pi为数据包i传输功耗；pmax为总功耗；tij表示数据包i在信道j上的传输时延；为数据包i的最大传输时延；bi表示数据包i占用的带宽；表示信道j的最大带宽。

11、进一步的，马尔科夫模型表示为(s,a,r,p,γ)，s为控制层的输入状态，a为控制层的输出动作，r为奖励函数，p为状态转移概率函数，γ为折扣系数，其中：

12、控制层的输入状态s表示为s＝[scs,ssnr,stl,spl]；

13、其中，scs表示信道的状态，ssnr表示信道的质量，stl表示信道上的流量负载，spl表示接入信道的优先级；

14、控制层的输出动作a表示为a＝[apc,asm,aba]；

15、其中，apc表示功耗控制，asm表示频谱管理，aba表示分配给数据包的带宽。

16、进一步的，马尔科夫模型的奖励函数包括：

17、

18、其中，rτ表示车联网τ时刻的奖励值；se(τ)表示车联网τ时刻的频谱效率；t(τ)表示车联网τ时刻的吞吐量；α,β为系统权重参数且满足0＜α,β＜1。

19、进一步的，actor策略网络用于根据当前状态选择一个动作执行；critic评价网络用于对actor策略网络选择的动作进行评价，actor策略网络包括actor在线策略网络和actor目标策略网络，actor在线策略网络负责网络参数θ的迭代更新，并根据当前状态选择当前动a，用于生成下一状态和当前动作的奖励值，actor目标策略网络则根据经验回放池中采样得到的下一状态去选择最优动作，actor目标策略网络中的参数θ'μ定期从在线策略网络中进行复制。

20、进一步的，critic评价网络包括critic在线评价网络和critic目标评价网络，critic在线评价网络负责critic评价网络的参数ω的迭代更新，计算当前q值和目标q值；critic目标评价网络负责计算目标q值中下一动作的评价值，critic目标评价网络的参数ω'每隔固定周期从在线评价网络中进行复制。

21、进一步的，构建源域特征编码器，将源域的状态输入源域特征编码器进行特征提取，将提取得到的源域特征作为actor策略网络的输入。

22、进一步的，若当前车联网环境中有车辆驶入、驶出，或者当前车辆网环境中通信链路出现故障，则判断当前车联网进入新环境；当进入新环境，则基于迁移学习将当前ddpg模型迁移到新环境中，迁移的过程包括：

23、将新环境作为目标域，构建目标域特征编码器来提取目标域状态的特征，获得目标域特征；

24、将源特征编码器和目标域特征编码作为生成对抗网络的生成器，并将源特征作为真实样本数据，目标域特征作为虚假样本数据，分别作为域分类器的输入，对域分类器进行训练直到域分类器不能分辨真实样本数据和虚假样本数据；

25、将目标域特征作为ddpg模型的输入，对域分类器和ddpg模型进行交替训练。

26、本专利技术能够明显提高车联网传输调度过程中的服务质量，并且当车联网环境发生变化后，能够快速调整传输调度模型，从而优化数据包传输的平均时延，提高系统的吞吐量。

本文档来自技高网...

【技术保护点】

1.一种基于迁移强化学习的车联网传输调度方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，以最小化数据包的传输时延、最大化系统的吞吐量为目标建立车联网传输调度优化模型包括：

3.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，马尔科夫模型表示为(S,A,R,P,γ)，S为控制层的输入状态，A为控制层的输出动作，R为奖励函数，P为状态转移概率函数，γ为折扣系数，其中：

4.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，马尔科夫模型的奖励函数包括：

5.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，Actor策略网络用于根据当前状态选择一个动作执行；Critic评价网络用于对Actor策略网络选择的动作进行评价，Actor策略网络包括Actor在线策略网络和Actor目标策略网络，Actor在线策略网络负责网络参数θ的迭代更新，并根据当前状态选择当前动A，用于生成下一状态和当前动作的奖励值，

6.根据权利要求5所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，Critic评价网络包括Critic在线评价网络和Critic目标评价网络，Critic在线评价网络负责Critic评价网络的参数ω的迭代更新，计算当前Q值和目标Q值；Critic目标评价网络负责计算目标Q值中下一动作的评价值，Critic目标评价网络的参数ω'每隔固定周期从在线评价网络中进行复制。

7.根据权利要求5所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，构建源域特征编码器，将源域的状态输入源域特征编码器进行特征提取，将提取得到的源域特征作为Actor策略网络的输入。

8.根据权利要求7所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，若当前车联网环境中有车辆驶入、驶出，或者当前车辆网环境中通信链路出现故障，则判断当前车联网进入新环境；当进入新环境，则基于迁移学习将当前DDPG模型迁移到新环境中，迁移的过程包括：

...

【技术特征摘要】

1.一种基于迁移强化学习的车联网传输调度方法，其特征在于，具体包括以下步骤：

3.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，马尔科夫模型表示为(s,a,r,p,γ)，s为控制层的输入状态，a为控制层的输出动作，r为奖励函数，p为状态转移概率函数，γ为折扣系数，其中：

4.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，马尔科夫模型的奖励函数包括：

5.根据权利要求1所述的一种基于迁移强化学习的车联网传输调度方法，其特征在于，actor策略网络用于根据当前状态选择一个动作执行；critic评价网络用于对actor策略网络选择的动作进行评价，actor策略网络包括actor在线策略网络和actor目标策略网络，actor在线策略网络负责网络参数θ的迭代更新，并根据当前状态选择当前动a，用于生成下一状态和当前动作的奖励值，acto...

【专利技术属性】
技术研发人员：杨柳，王宇，李新月，鲁银芝，吴雪刚，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人