一种基于深度强化学习的车辆接入选择优化方法及系统技术方案

技术编号：40938922 阅读：3 留言：0更新日期：2024-04-18 14:57

本发明专利技术涉及车联网平台接入管理的技术领域，公开了一种基于深度强化学习的车辆接入选择优化方法及系统，该方法包括以下步骤：S1：建立IOV异构网络模型，初始化网络参数；S2：将网络状态输入到策略网络；S3：策略网络计算不同接入选择对应的概率，输出概率最大的接入选择的接入矩阵；S4：根据所述接入矩阵执行接入选择，记录奖励值并更新网络状态；S5：采用梯度上升法更新策略网络的参数；S6：重复步骤S2～S5，直至达到最大迭代次数；S7：获取车联网的环境信息，根据训练好的策略网络进行接入选择。本发明专利技术实现了车联网中用户车辆接入选择的优化，从而提升了用户服务体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及车联网平台接入管理的，具体涉及一种基于深度强化学习的车辆接入选择优化方法及系统。

技术介绍

1、随着智能无线终端的快速发展和移动通信技术的广泛应用，设备与网络、设备之间的高速互联成为可能。同时，为了提高车辆的运输效率和安全性，迫切需要发展更可靠和高效的车辆互联系统，车联网(iov)作为一种新的范式，以物联网无处不在的传感能力为支撑，将车辆连接到互联网。iov可以通过网络快速交换车辆信息，提供高效、低延迟的交通服务。然而，高计算复杂度任务、大数据量、车辆间频繁的协作通信和有限的频谱带宽导致了iov服务时延和能耗均有所增长，用户体验质量有所下降，因此如何保证iov服务的用户体验质量成了当下的一大难题。

2、但在实际计算任务卸载过程中，首先需要在超密集iov环境下从多个具备mec功能的接入节点中选择一个最合适的接入节点，并将计算任务卸载至其上进行处理。当有多个车辆设备同时需要卸载计算任务至服务端时，即形成一个多用户与多个服务节点之间的接入选择问题。然而，iov场景下接入节点数量与车辆数量极大，同时计算任务日益复杂和庞大，计算资源分配也变得复杂，因此，接入选择问题变的更为复杂。

3、如申请公开号为cn114866613a的专利公开了一种车联网请求处理方法、装置、电子设备及存储介质，该方法包括：接收第一终端设备发送的车联网请求，车联网请求包括第一终端标识；判断根据第一终端标识是否查找到符合预设条件的车机标识，预设条件包括：第一终端标识与车机标识是预先关联的，且第一终端设备的地理坐标与车机标识对应车辆的

4、以上专利都存在本
技术介绍
提出的问题：没有充分考虑到车辆接入选择的连续性，而iov服务中车辆接入切换频繁，若只考虑某时刻下接入容易陷入局部最优解。

5、公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

技术实现思路

1、本专利技术所要解决的技术问题是克服现有技术的缺陷，提供一种基于深度强化学习的车辆接入选择优化方法及系统，根据环境的变化更新接入选择，避免陷入局部最优解，有利于在动态复杂车联网环境中进行应用。

2、为解决上述技术问题，本专利技术提供如下技术方案：

3、一方面，本专利技术提供一种基于深度强化学习的车辆接入选择优化方法，包括以下步骤：

4、s1：建立iov异构网络模型，初始化网络参数；建立策略网络，初始化策略网络的参数；

5、s2：将网络状态输入到策略网络；

6、s3：策略网络计算不同接入选择对应的概率，输出概率最大的接入选择的接入矩阵；

7、s4：根据所述接入矩阵执行接入选择，记录奖励值并更新网络状态；

8、s5：采用梯度上升法更新策略网络的参数；

9、s6：重复步骤s2～s5，直至达到最大迭代次数；

10、s7：获取车联网的环境信息，采集实际的网络参数并为网络状态赋值，将网络状态输入训练好的策略网络，策略网络计算出的具有最大概率的接入选择为最终的车辆接入选择结果。

11、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述iov异构网络模型的节点共有m个，包括一个移动基站和m-1个路边单元；所有节点均部署移动边缘计算功能，且完全复用频率资源；以资源块为最小资源单位，在单一时隙中，每个节点在一个资源块上仅接入一个车辆。

12、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述网络状态由所述网络参数组成，表示如下：

13、st＝{λt,μt,nrb,βnoise,ωnoise,brb,pt,g}；

14、其中，st表示t时刻的网络状态；λt表示任务达到率；μt表示任务服务率；

15、nrb表示资源块数量；βnoise表示噪声放大系数；ωnoise表示白噪声功率谱密度；brb表示资源块的带宽；pt表示车辆设备的平均发射功率；g表示iov网络结构参数矩阵，包括网络拓扑结构和车辆请求信息。

16、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述接入矩阵的形式如下：

17、

18、其中，at表示t时刻的接入矩阵，aij表示第j个车辆是否接入第i个节点；i的取值范围为1，2，……，m，m为节点的数量；j的取值范围为1，2，……，n，n为t时刻车辆的数量。

19、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述奖励值的计算公式如下：

20、

21、其中，rt表示t时刻的奖励值；τ表示任意时刻；te表示回报步数，表示t时刻的奖励值中包含的历史奖励值的个数；β表示历史奖励的折扣因子；mosτ(sτ,aτ)表示当t＝τ时，t时刻的评价函数。

22、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述评价函数的计算公式如下：

23、most(st,at)＝ξ1most,snr(st,at)+ξ2most,t(st,at)+(1-ξ1-ξ2)most,e(st,at)；

24、其中，ξ1、ξ2、ξ3为权重；most,snr(st,at)表示当网络状态为st，接入矩阵为at时的信噪比评价；most,t(st,at)表示当网络状态为st，接入矩阵为at时的时延评价；most,e(st,at)表示当网络状态为st，接入矩阵为at时的能耗评价。

25、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述信噪比评价的计算公式如下：

26、mossnr＝p(γ-minsnr)+q；

27、γ为车辆到节点的实际信噪比，minsnr为定义的信噪比最低阈值，p权重参数，q为偏置参数。

28、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述时延评价的计算公式如下：

29、

30、其中，maxt为定义的时延最大阈值；t为车辆到节点的时延；a为权重参数，b为偏置参数。

31、作为本专利技术所述基于深度强化学习的车辆接入选择优化方法的一种优选方案，其中：所述能耗评价的计算公式如下：

32、

33、其中，e为能耗，单位为焦耳；ω为权重参数，σ为偏置参数。

34、第二方面，本专利技术提供一种基于深度强化学习的车辆接入选择优化系统，包括iov网络模型模块、输入输出模块、状态管理模块、策略网络模块、接入选择模块、策略更新模块、迭代控制模块，其中：

35、iov网络模型模本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的车辆接入选择优化方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述IOV异构网络模型的节点共有M个，包括一个移动基站和M-1个路边单元；所有节点均部署移动边缘计算功能，且完全复用频率资源；以资源块为最小资源单位，在单一时隙中，每个节点在一个资源块上仅接入一个车辆。

3.如权利要求2所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述网络状态由所述网络参数组成，表示如下：

4.如权利要求3所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述接入矩阵的形式如下：

5.如权利要求4所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述奖励值的计算公式如下：

6.如权利要求5所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述评价函数的计算公式如下：

7.如权利要求6所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述信噪比评价的计算公式如下：

9.如权利要求8所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述能耗评价的计算公式如下：

10.一种基于深度强化学习的车辆接入选择优化系统，基于权利要求1-9中任一项所述的一种基于深度强化学习的车辆接入选择优化方法实现，其特征在于：包括IOV网络模型模块、输入输出模块、状态管理模块、策略网络模块、接入选择模块、策略更新模块、迭代控制模块，其中：

...

【技术特征摘要】

1.一种基于深度强化学习的车辆接入选择优化方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述iov异构网络模型的节点共有m个，包括一个移动基站和m-1个路边单元；所有节点均部署移动边缘计算功能，且完全复用频率资源；以资源块为最小资源单位，在单一时隙中，每个节点在一个资源块上仅接入一个车辆。

3.如权利要求2所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述网络状态由所述网络参数组成，表示如下：

4.如权利要求3所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述接入矩阵的形式如下：

5.如权利要求4所述的一种基于深度强化学习的车辆接入选择优化方法，其特征在于：所述奖励值的计算公式如下：

...

【专利技术属性】
技术研发人员：刘昌通，周威，施国庆，吴越红，郭彬，陈艺丹，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人