当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于强化学习的车载计算密集型应用的V2I卸载方法技术

技术编号:32514908 阅读:20 留言:0更新日期:2022-03-02 11:07
一种基于强化学习的车载计算密集型应用的V2I卸载方法,属于车联网优化应用领域。本发明专利技术主要解决车辆行驶过程中产生的可划分为互有依赖性的子任务的计算密集型应用的卸载决策问题,具体而言是解决如何在应用整体上传至RSU、各子任务通过多个边缘服务器协作计算、计算结果回传给车辆期间选择合适的RSU/边缘服务器,以降低整体卸载时延和卸载服务失败所受惩罚的加权和,提供了一种面向计算密集型车联网应用的边缘服务器协作计算方案,并利用一种强化学习方法——MADDPG算法以最小化整体卸载时延和卸载服务失败所受惩罚的加权和为优化目标来求解车辆卸载应用全过程的卸载决策问题。问题。问题。

【技术实现步骤摘要】
一种基于强化学习的车载计算密集型应用的V2I卸载方法


[0001]本专利技术属于车联网优化应用领域,具体涉及一种基于强化学习的车载计算密集型应用的V2I卸载方法。

技术介绍

[0002]在当前的汽车领域,人们日常出行需求已经基本满足,转而聚焦于出行体验的提升,例如:如何提高出行安全?如何预判、避免交通拥堵?以及丰富的车载娱乐设施。一些新兴科技的成熟使得上述各功能得以实现,它们对汽车产业的优化和升级是贯穿上下游的,加速了汽车智能化发展:增强现实(Augmented Reality,AR)技术可以实现在原有导航的基础上开发360度实景展示,为驾驶员提供沉浸式指引、不再惧怕方向感的错乱;自然语言处理(Natural Language Processing,NLP)能够与驾驶员通过语音交互,满足驾驶员的额外需求,例如打开车窗、制热制冷,驾驶员不必在驾驶期间兼顾其他操作,从而提升出行安全。基于诸如AR、NLP等的应用程序的计算量比寻常应用的计算量大,同时这些应用还对时延高度敏感,如果使用移动云计算(Mobile Cloud Computing,MCC)可能因为较长的传输时延而无法满足严格的时延要求,且在高峰时期容易加重对核心网的压力。移动边缘计算(Mobile Edge Computing,MEC)概念的提出,为解决车联网中的计算密集型兼时延敏感型应用提供了新的思路——将计算能力下沉至接入网,在终端侧提供较为充足的计算资源。针对车辆决定应用程序是在本地处理还是卸载至边缘服务器处理的问题,W.Zhan等采用了一种自启发式算法。针对车辆选择将应用卸载至哪一个边缘服务器的问题,P.Liu等人提出了一种定价算法,车辆通过竞价角逐,最终与某一边缘服务器匹配。但仅有边缘计算的概念还是不够的,我们知道车联网作为物联网的一个重要分支,其主要特征在于车辆的高速移动性,车辆在不可忽视的计算时延内可能行驶了一段距离,导致车辆驶离原本路边单元(Roadside Unit,RSU)的通信范围,那么又将如何保证计算结果能够可靠地返还至车辆?T.Taleb等人引入了“计算迁移”概念,也就是当车辆驶离一个装载服务器的RSU的通信范围进入另一个RSU的通信范围时,计算过程暂停,虚拟机(Virtual Machine,VM)也将迁至另一台服务器上。这种情况不适用于RSU密集部署的城市道路的场景,因为频繁的切换导致频繁的暂停势必会增加计算卸载的时间成本。另一种方案就是采用边缘服务器之间的协作,加速计算卸载的时间,从而保证可靠性。具体而言,M.Li等人采用将应用上传至一个通信质量好的RSU上,该RSU再寻找其他有空闲资源的服务器,将部分计算量转移,以加快计算速度。为了简化问题,他们考虑应用是可以任意切割的,并且只与一个RSU协作(一共最多2个RSU)处理应用。但在实际日常生活中,应用划分的各子任务之间应该是有依赖性关系的,即后续子任务的计算依赖于前面已经计算完毕的子任务的计算结果,显然,假设对应用进行任意切割不具有现实的适用性。关于遵循依赖性关系的应用,目前多数研究主要探究每个子任务是在本地处理还是卸载至边缘服务器处理,少有研究聚焦多个边缘服务器协作。再次,当前自启发的V2I卸载方法主要基于贪心算法,欠缺稳定性与对全类场景的普适性,而一般的优化方法难以在多项式时间内解决NP

hard类问题,且不适合于动态变化的车联网网络;采用集中
式的强化学习方法进行卸载决策的方法依托于中心控制器对模型的训练和决策产生与发放,这会增加车辆与中心控制器的通信成本与时延;而纯分布式的强化学习难以获得全局的状态信息,车辆无法做出真正有利于全局的决策。

技术实现思路

[0003]本专利技术主要解决车辆行驶过程中产生的可划分为互有依赖性的子任务的计算密集型应用的卸载决策问题,具体而言是解决如何在应用整体上传至RSU、各子任务通过多个边缘服务器协作计算、计算结果回传给车辆期间选择合适的RSU/边缘服务器,以降低整体卸载时延和卸载服务失败所受惩罚的加权和,提供了一种面向计算密集型车联网应用的边缘服务器协作计算方案,并利用一种强化学习方法——MADDPG算法以最小化整体卸载时延和卸载服务失败所受惩罚的加权和为优化目标来求解车辆卸载应用全过程的卸载决策问题。
[0004]为实现上述目的,本专利技术采取的技术方案如下:
[0005]一种基于强化学习的车载计算密集型应用的V2I卸载方法,所述方法包括以下步骤:
[0006]步骤一:对网络和应用建模,一个基于MEC的车联网网络,包含RSU、边缘服务器和车辆三种实体;RSU用集合表示,并沿单向直线道路均匀分布,由于RSU可以密集部署,RSU的覆盖范围有重叠或刚好对齐;每个RSU通过光纤与一台边缘服务器相连,也就是说,这些RSU为在道路上行驶的车辆提供了通信和计算服务的全面覆盖;所有车辆用集合表示,将车辆产生的应用程序划分为若干个子任务,如图2所示,用有向无环图表示:有向无环图的结点集合表示:有向无环图的结点集合表示各个子任务;其中,0和V
m
+1是引入的虚拟子任务,称0为入口任务,V
m
+1为出口任务,并强制这两个子任务在本地计算;另用C
m,j
表示车辆m所产生的应用中每个子任务计算需求大小;有向无环图的边(i,j)
m
∈ε
m
表示子任务间的依赖关系,例如(1,2)
m
表示子任务2的计算依赖于子任务1的计算结果,子任务2开始计算的必要条件是子任务1的计算结果需要从子任务1所在RSU传至子任务2所在RSU,称子任务1是子任务2的前导子任务,称子任务2是子任务1的后续子任务;针对某一特定子任务j,用pred(j)表示子任务j的全部前导子任务,用succ(j)表示子任务j的全部后续子任务;表示子任务之间传输数据的大小;二进制变量α
m,j,r
代表子任务j是否选择在RSU r连接的边缘服务器上计算,若选择在该RSU的边缘服务器上计算则α
m,j,r
=1,否则α
m,j,r
=0;车辆m的动作向量为
[0007]步骤二:对车联网网络中的卸载流程建模并制定优化目标为:
[0008][0009][0010][0011][0012]其中,为卸载时延和卸载服务失败的加权和,ζ
m
用来指示卸载服务成功或失败,ζ
m
=1代表卸载服务成功,故最小化整体卸载时延TT
m
;ζ
m
=0代表卸载服务失败,此时最小化因失败而受到的惩罚,与各子任务输入输出有关,χ是惩罚因子,单位为/bit;ρr表示RSU r上的CPU核数,即同时可最多计算ρr个子任务;α={α1,

,α
m


,α
M
}表示所有车辆的动作向量;
[0013]步骤三:将步骤二中的问题转换为MDP,确定智能体的实体并设置MDP的状态空间、动作空间与奖励函数:
[0014]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的车载计算密集型应用的V2I卸载方法,其特征在于:所述方法包括以下步骤:步骤一:对网络和应用建模,一个基于MEC的车联网网络,包含RSU、边缘服务器和车辆三种实体;RSU用集合表示,并沿单向直线道路均匀分布,RSU的覆盖范围有重叠或刚好对齐;每个RSU通过光纤与一台边缘服务器相连,RSU为在道路上行驶的车辆提供了通信和计算服务的全面覆盖;所有车辆用集合表示,将车辆产生的应用程序划分为若干个子任务,用有向无环图表示:有向无环图的结点集合表示各个子任务;其中,0和V
m
+1是引入的虚拟子任务,称0为入口任务,V
m
+1为出口任务,并强制这两个子任务在本地计算;另用C
m,j
表示车辆m所产生的应用中每个子任务计算需求大小;有向无环图的边(i,j)
m
∈ε
m
表示子任务间的依赖关系;针对某一特定子任务j,用pred(j)表示子任务j的全部前导子任务,用succ(j)表示子任务j的全部后续子任务;表示子任务之间传输数据的大小;二进制变量α
m,j,r
代表子任务j是否选择在RSU r连接的边缘服务器上计算,若选择在该RSU的边缘服务器上计算则α
m,j,r
=1,否则α
m,j,r
=0;车辆m的动作向量为步骤二:对车联网网络中的卸载流程建模并制定优化目标为:步骤二:对车联网网络中的卸载流程建模并制定优化目标为:步骤二:对车联网网络中的卸载流程建模并制定优化目标为:步骤二:对车联网网络中的卸载流程建模并制定优化目标为:其中,为卸载时延和卸载服务失败所受惩罚的加权和,用来指示卸载服务成功或失败,代表卸载服务成功,故最小化整体卸载时延TT
m
;ζ
m
=0代表卸载服务失败,此时最小化因失败而受到的惩罚,与各子任务输入输出有关,χ是惩罚因子,单位为/bit;ρ
r
表示RSU r上的CPU核数,即同时可最多计算ρ
r
个子任务;α={α1,

,α
m


,α
M
}表示所有车辆的动作向量;步骤三:将步骤二中的问题转换为MDP,确定智能体的实体并设置MDP的状态空间、动作空间与奖励函数:首先设置智能体为每个行驶的车辆,然后定义智能体的状态空间、动作空间与奖励函数;状态空间包含车辆m与RSU r之间的信道增益h
m,r
、子任务的计算需求C
m,j
、子任务之间传输的数据量大小RSU中边缘服务器的CPU核数ρ
r
、车的速度v
m
;动作空间包含每个子任务选择RSU的索引号a
m,j
;奖励函数包含了优化目标与约束条件两个部分,
其中...

【专利技术属性】
技术研发人员:崔琳周求湛王聪郭迟
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1