一种基于深度强化学习的车辆任务卸载方法与系统技术方案

技术编号:39726341 阅读:5 留言:0更新日期:2023-12-17 23:30
本发明专利技术公开了一种基于深度强化学习的车辆任务卸载方法与系统,该系统整合了将深度强化学习算法和边缘计算结构,将二者结合引入到车联网的计算资源分配问题中,通过用户车辆与边缘计算服务器交互来获取用户车辆的服务需求,采用深度确定性策略梯度算法进行多轮训练并结合优先经验回放机制获得最优的任务卸载策略

【技术实现步骤摘要】
一种基于深度强化学习的车辆任务卸载方法与系统


[0001]本专利技术属于车联网领域,具体涉及一种基于深度强化学习的车辆任务卸载方法与系统


技术介绍

[0002]随着车联网技术的快速发展,车载应用的需求日渐多样化,车辆对计算资源的需求规模扩大

而车载设备本身计算能力有限,车联网中计算资源短缺问题日益凸显,无法满足用户对低时延和较高网络服务质量的需求

因此在资源有限的车辆执行较大的计算任务仍是一个重要挑战

计算任务卸载的出现一定程度上缓解了上述问题,通过将车联网的计算任务卸载到临近的服务器或路边基站,一定程度上缓解部分计算资源的压力

[0003]然而传统的任务卸载方法没有考虑车联网环境的动态性,采用的算法本身存在局限性,存在计算复杂度高

卸载模型固化的问题,并不完全适应车联网场景,在服务需求量较大,场景较复杂的情况下不能为用户提供低时延

高稳定的服务


技术实现思路

[0004]专利技术目的:针对以上问题,本专利技术提出一种基于深度强化学习的车辆任务卸载方法与系统,整合深度强化学习算法和边缘计算结构,将二者结合引入到车联网的计算资源分配问题中,充分利用其在环境感知

环境交互

自主学习和智能决策等方面的性能优势,来满足复杂车联网场景中较大计算任务的需求,提高任务卸载决策效率,减小计算成本,减小带宽取得更大的效益
/>[0005]技术方案:为实现本专利技术的目的,本专利技术所采用的技术方案是:第一方面,本专利技术提供了一种基于深度强化学习的车辆任务卸载方法,包括以下步骤:步骤一,用户车辆发起任务请求,产生相应计算任务,并将计算任务上传至当前所在路段的边缘服务器;步骤二,各路段的边缘服务器收集各路段计算任务,并将任务和各服务器的资源信息上传至云服务器;步骤三,根据云服务器任务卸载过程的各项指标,建立优化问题方程;所述指标包括数据传输速率

计算任务大小和用户车辆的本地执行
CPU
频率;步骤四,云服务器通过采用
DDPG
算法进行任务卸载的决策,
DDPG
算法通过智能体与环境的交互过程更新深度神经网络的权值,进行自主训练和学习,获取最优任务卸载策略;所述智能体是指在道路行驶的汽车,所述环境是指车联网场景;步骤五,云服务器向边缘服务器和用户车辆下发卸载决策,如果执行任务卸载,用户车辆依据决策中的卸载比例,向当前路段的边缘服务器卸载相应计算任务,其余计算任务用于本地处理

[0006]进一步的,步骤三中建立优化问题方程的方法如下:

OFDM
技术用于用户车辆和边缘服务器之间的链路传输,根据香农理论,从用户
i
到边缘服务器
j
的数据传输速率为
(1)
[0007]其中是云服务器分配给用户车辆
i
以将任务卸载到边缘服务器
j
的带宽,为时段
t
内用户车辆
i
到边缘服务器
j
的链路在任务卸载过程中的信噪比值;设用户车辆
i
在时段
t
产生的计算任务大小为,用户车辆
i
将计算任务卸载到边缘服务器
s
的百分比为,是在本地执行的对应任务的百分比,则用户车辆
i
在本地执行的计算任务大小表示为,单位为
bit

X
表示用户车辆
i
完成一比特计算任务所需的
CPU
周期,则在时段
t
完成本地计算任务所需
CPU
周期为;如果用户车辆不进行任务卸载,则在时段
t
内产生的本地计算时延表示为
(2)
[0008]其中,为用户车辆的本地执行
CPU
频率;在任务卸载过程中,用户车辆
i
将计算任务卸载到边缘服务器
j
进行协作计算,用户车辆
i
在时段
t
内产生的计算任务在本地计算时延和能量消耗分别表示为
(3)
[0009](4)
[0010]其中,为用户车辆
i
在时段
t
内产生的计算任务在本地计算的时延,为用户车辆
i
在时段
t
内产生的计算任务在本地计算的能量消耗,
ω
为与
CPU
芯片结构相关的能量消耗因子,为用户车辆的本地执行
CPU
频率;如果用户车辆将计算任务卸载到边缘服务器,首先根据式
(1)
建立的通信模型,用户车辆
i
到边缘服务器
j
实现的传输速率为,则需要的上传时延和上传时产生的能耗分别为
(5)
[0011](6)
[0012]其中,为上传时延,为上传时产生的能耗,为边缘服务器与用户车辆传输过程中的能耗成本;则在时段
t
内从用户车辆
i
到边缘服务器
j
的任务卸载全过程中的总时延和总能耗定义为
(7)
[0013](8)
[0014]根据任务卸载过程中产生的时延和能耗限制,设计优化目标函数:
(9)
其中,是所有用户车辆的集合,是所有边缘服务器的集合,是当前路段的行驶车辆总数,是当前路段边缘服务器总数

[0015]进一步的,采用
DDPG
算法进行任务卸载决策的流程如下:
Step1
:构建车联网场景任务卸载的马尔可夫决策模型,包括状态
state
,动作
action
,奖励
reward
三个关键要素,定义如下:
(1) state: 马尔可夫决策模型中的状态反映当前时段用户车辆和边缘服务器的可用资源状态,通过云服务器与二者的交互进行收集;时段
t
中的状态集合表示为
(10)
其中,车辆状态集包括用户车辆
i
的速度

自身计算能力

产生的任务量和任务所需的计算资源,代表用户车辆
i
与边缘服务器
j
之间的连接状态,和分别表示边缘服务器
j
的可用计算资源和带宽资源;
(2) action: 在构建的马尔可夫决策模型中,云服务器将下发计算任务卸载和计算资源分配的一个决策,时段
t
中的动作表示为:
(11)
[0016]其中,为计算任务卸载到边缘服务器的百分比,和分别表示云服务器配给用户车辆
i
和边缘服务器
j本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的车辆任务卸载方法,其特征在于,包括以下步骤:步骤一,用户车辆发起任务请求,产生相应计算任务,并将计算任务上传至当前所在路段的边缘服务器;步骤二,各路段的边缘服务器收集各路段计算任务,并将任务和各服务器的资源信息上传至云服务器;步骤三,云服务器根据任务卸载过程的各项指标,建立优化问题方程;所述指标包括数据传输速率

计算任务大小和用户车辆的本地执行
CPU
频率;步骤四,云服务器通过采用
DDPG
算法进行任务卸载的决策,
DDPG
算法通过智能体与环境的交互过程更新深度神经网络的权值,进行自主训练和学习,获取最优任务卸载策略;所述智能体是指在道路行驶的汽车,所述环境是指车联网场景;步骤五,云服务器向边缘服务器和用户车辆下发卸载决策,如果执行任务卸载,用户车辆依据决策中的卸载比例,向当前路段的边缘服务器卸载相应计算任务,其余计算任务用于本地处理
。2.
根据权利要求1所述的一种基于深度强化学习的车辆任务卸载方法,其特征在于,步骤三中建立优化问题方程的方法如下:将
OFDM
技术用于用户车辆和边缘服务器之间的链路传输,根据香农理论,从用户
i
到边缘服务器
j
的数据传输速率为
(1)
其中是云服务器分配给用户车辆
i
以将任务卸载到边缘服务器
j
的带宽,为时段
t
内用户车辆
i
到边缘服务器
j
的链路在任务卸载过程中的信噪比值;设用户车辆
i
在时段
t
产生的计算任务大小为,用户车辆
i
将计算任务卸载到边缘服务器
s
的百分比为,是在本地执行的对应任务的百分比,则用户车辆
i
在本地执行的计算任务大小表示为,单位为
bit

X
表示用户车辆
i
完成一比特计算任务所需的
CPU
周期,则在时段
t
完成本地计算任务所需
CPU
周期为;如果用户车辆不进行任务卸载,则在时段
t
内产生的本地计算时延表示为
(2)
其中,为用户车辆的本地执行
CPU
频率;在任务卸载过程中,用户车辆
i
将计算任务卸载到边缘服务器
j
进行协作计算,用户车辆
i
在时段
t
内产生的计算任务在本地计算时延和能量消耗分别表示为
(3)(4)
其中,为用户车辆
i
在时段
t
内产生的计算任务在本地计算的时延,为
用户车辆
i
在时段
t
内产生的计算任务在本地计算的能量消耗,
ω
为与
CPU
芯片结构相关的能量消耗因子,为用户车辆的本地执行
CPU
频率;如果用户车辆将计算任务卸载到边缘服务器,首先根据式
(1)
建立的通信模型,用户车辆
i
到边缘服务器
j
实现的传输速率为,则需要的上传时延和上传时产生的能耗分别为
(5)(6)
其中,为上传时延,为上传时产生的能耗,为边缘服务器与用户车辆传输过程中的能耗成本;则在时段
t
内从用户车辆
i
到边缘服务器
j
的任务卸载全过程中的总时延和总能耗定义为
(7)(8)
根据任务卸载过程中产生的时延和能耗限制,设计优化目标函数:
(9)
其中,是所有用户车辆的集合,是所有边缘服务器的集合,是当前路段的行驶车辆总数,是当前路段边缘服务器总数
。3.
根据权利要求2所述的一种基于深度强化学习的车辆任务卸载方法,其特征在于,采用
DDPG
算法进行任务卸载决策的流程如下:
Step1
:构建车联网场景任务卸载的马尔可夫决策模型,包括状态
state
,动作
action
,奖励
reward
三个关键要素,定义如下:
(1) state: 马尔可夫决策模型中的状态反映当前时段用户车辆和边缘服务器的可用资源状态,通过云服务器与二者的交互进行收集;时段
t
中的状态集合表示为
(10)
其中,车辆状态集包括用户车辆
i
的速度

自身计算能力

产生的任务量和任务所需的计算资源,代表用户车辆
i
与边缘服务器
j
之间的连接状态,和分别表示边缘服务器
j
的可用计算资源和带宽资源;
(2) action: 在构建的马尔可夫决策模型中,云服务器将下发计算任务卸载和计算资源分配的一个决策,时段
t
中的动作表示为:
(11)
其中,为计算任务卸载到边缘服务器的百分比,和分别表示云服务器配给用户车辆
i
和边缘服务器
j
的计算资源量,表示云服务器分配给用户车辆
i
用于计算任务卸载的带宽;
(3) reward: 基于
t
时段的
state

action
...

【专利技术属性】
技术研发人员:郭永安马德睿王宇翱李金城
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1