车联网中基于联邦强化学习的任务调度与资源分配方法组成比例

技术编号:38745152 阅读:18 留言:0更新日期:2023-09-08 23:27
本发明专利技术公开了车联网中基于联邦强化学习的任务调度与资源分配方法,包括以下步骤:构建智能车辆与基础设施通信的车联网场景,包括具有计算能力的基站与中心云服务器;以车辆卸载效益最大化为优化目标,建立最优化模型;车辆通过优先级评估得到任务卸载顺序;车辆通过感知车联网环境获得输入状态,以卸载策略与资源请求作为输出动作,联合得到任务卸载顺序、任务调度与资源分配策略;通过离线梯度下降与联邦聚合训练网络。本发明专利技术将联邦学习引入深度强化学习的离线学习环节中,实现分布式的任务调度与资源分配,在高动态的车联网环境中具有更好的可扩展性与可行性。更好的可扩展性与可行性。更好的可扩展性与可行性。

【技术实现步骤摘要】
车联网中基于联邦强化学习的任务调度与资源分配方法


[0001]本专利技术涉及无线通信与车联网
,具体涉及一种车联网中基于联邦强化学习的任务调度与资源分配方法。

技术介绍

[0002]车联网作为5G的应用场景之一,其支持诸多的车载应用服务,而这些服务往往需要满足低时延,高可靠性高稳定性。移动边缘计算通过将计算资源和存储资源下沉到网络边缘,实现了更低时延和更低能耗,成为一种备受关注的技术。
[0003]任务卸载是移动边缘计算重要应用场景之一,通过向移动端应用提供计算服务以提高车联网应用群的服务质量。车载应用程序本质上是由若干相互依赖的子任务构成,例如部署在车辆中的导航应用程序,由检索终点、读取用户位置、加载地图、读取交通条件与分析备选路径这几个子任务组成,且各子任务都具有一定的依赖关系,通常这种依赖关系以有向无环图来描述。对比于二进制卸载,考虑任务的更细粒度卸载,将拆分后的各任务卸载至各边缘服务器或本地并行的运行,理论上可以进一步降低任务时延,然而子任务间存在依赖关系,同时子任务在可计算单元间迁移需要迁移成本,车联网的高效运行有赖于车联网系统内高效的卸载调度决策与合理的资源分配。
[0004]深度强化学习已被广泛作为边缘计算领域中。在现有的大多数研究中,车联网环境下的任务卸载通常为传统的单智能体的集中式算法(Single DQN等),存在维数爆炸与可扩展性差的不足,或半分布式(分布式决策,集中式评判)的多智能体强化学习(如MADDPG等),存在隐私泄露的风险,难以在高动态性的车联网环境中提供良好的服务质量。
[0005]现有技术一种基于深度强化学习的多智能设备任务卸载决策方法(CN202210362289.6)没有考虑到边缘计算任务的时效性与任务可再分割性,现有的绝大部分场景中,卸载任务都有一定的时延容忍。现有专利技术采用集中式训练与分布式决策的算法,在高密度用户场景下集中式训练需耗费大量通信资源,存在隐私泄露的风险。

技术实现思路

[0006]为了克服现有技术中集中式单代理强化学习与半分布式的多代理强化学习算法易泄露用户数据与可扩展性差的缺点,本专利技术提出车联网中基于联邦强化学习的任务调度与资源分配方法,将联邦学习引入深度强化学习的离线学习环节中,采用完全分布式的算法,实现分布式的任务卸载与资源分配,避免了用户数据外泄,保护了用户的隐私,在高动态的车联网环境中具有更好的可扩展性与可行性,实现分布式任务调度与资源分配,对卸载效益最大化问题进行分布式求解。
[0007]本专利技术的目的至少通过如下技术方案之一实现。
[0008]车联网中基于联邦强化学习的任务调度与资源分配方法,包括以下步骤:
[0009]S1、构建智能车辆与基础设施通信的车联网场景,包括具有计算能力的边缘服务器与中心云服务器,以及车辆与基站的通信模型和计算模型;
[0010]S2、以车辆任务卸载效益最大化的优化目标,建立最优化模型;
[0011]S3、智能车辆端通过感知任务图模型,基于优先级评估求得任务卸载顺序;
[0012]S4、智能车辆端通过自身任务需求及感知边缘服务器的状态作为联邦深度强化学习网络的输入状态,以卸载决策与资源分配方案为输出动作;
[0013]S5、联合步骤S3、步骤S4得到任务卸载顺序、任务调度与资源分配方案,实现车联网服务质量最大化;
[0014]S6、通过离线梯度下降与联邦聚合训练网络,并更新目标网络权重,将多车辆智能体环境下的各车辆智能体目标网络聚合得到全局模型,再将全局模型分发至各车辆智能体。
[0015]进一步地,步骤S1中,建立车联网动态场景,具体如下:
[0016]车联网场景为高速公路以及路段上有不断行驶的车辆,其中车辆数服从基于车速的泊松分布,场景中有两个基站,其中每个基站配备有边缘服务器;
[0017]记车辆集合为基站集合为U为车辆总数,K为基站总数;在每一时隙,车辆u的计算任务定义为任务图其中T
max
为当前任务的时延容忍;当前任务的时延容忍;为子任务集合,也是任务图的点集,C
i
为第i个子任务所需算力,I为当前任务的子任务总数;个子任务所需算力,I为当前任务的子任务总数;为任务依赖集合,也是任务图的边集,任务i

为任务i的前驱任务,且D
i

,i
为任务i

计算完成后需要传递给任务i的数据量,C
i

为第i

个子任务所需算力;
[0018]假定子任务已不可再分割,同时为简洁的表示任务依赖关系,定义φ
i
为任务i的前驱结点集,且i

∈φ
i
,为确保卸载的起点节点与终点节点唯一,添加虚拟起点任务为入度为0的节点的前驱结点,添加虚拟终点任务为出度为0的节点的后继节点,且C0=0,C
I
=0。
[0019]进一步地,建立车辆与基站的通信模型包括基于3GPP TR 36.885的无线信道模型,具体如下:
[0020]车辆u与所在范围内的基站通信的信道增益h
u,k
考虑大尺度和小尺度衰落,表示为:
[0021][0022]其中A为路径衰落参数;μ
u
为车辆u的衰落系数,服从均值为1的独立复指数分布;β
u
为车辆u的阴影衰落,服从具有标准偏差的对数正态分布;L
u,k
表示车辆u与基站k的距离,γ为衰减指数;
[0023]车辆与基站的无线通信基于正交频分多址,车辆u与基站k的带宽由连接至当前基站下所有需要上行的车辆均分,上行信噪比与车辆上行发射功率、信道增益成正比,车辆u与基站k的上行速率为根据香农公式得:
[0024][0025]上式中,p
u
为车辆u的上行发射功率,B为基站的总带宽,h
u,k
为车辆u与基站k的信道增益,σ2为高斯白噪声功率,N
up
为需要上行的车辆数,其中车辆u与基站k的上行信噪比需满足:
[0026][0027]上式中γ
th
为噪声门限;当上行信噪比低于噪声门限时,任务卸载失败;
[0028]定义车辆u与基站k的下行速率
[0029][0030]上式中,p
k
为基站下行发射功率,N
do
为需要下行的车辆数。
[0031]进一步地,建立车辆与基站的计算模型包括:定义a
u,k,i
为0

1二进制的车辆卸载指示变量,a
u,k,i
=1即车辆u的子任务i将任务卸载至基站k对应的边缘服务器,a
u,0,i
为车辆u的子任务i的本地计算指示变量,a
u,0,i
=1即当前时隙车辆u的子任务i的计算任务为本地计算,且虚拟起点任务与虚拟终点任务卸载决策指定为车辆本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.车联网中基于联邦强化学习的任务调度与资源分配方法,其特征在于,包括以下步骤:S1、构建智能车辆与基础设施通信的车联网场景,包括具有计算能力的边缘服务器与中心云服务器,以及车辆与基站的通信模型和计算模型;S2、以车辆任务卸载效益最大化的优化目标,建立最优化模型;S3、智能车辆端通过感知任务图模型,基于优先级评估求得任务卸载顺序;S4、智能车辆端通过自身任务需求及感知边缘服务器的状态作为联邦深度强化学习网络的输入状态,以卸载决策与资源分配方案为输出动作;S5、联合步骤S3、步骤S4得到任务卸载顺序、任务调度与资源分配方案,实现车联网服务质量最大化;S6、通过离线梯度下降与联邦聚合训练网络,并更新目标网络权重,将多车辆智能体环境下的各车辆智能体目标网络聚合得到全局模型,再将全局模型分发至各车辆智能体。2.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法,其特征在于,步骤S1中,建立车联网动态场景,具体如下:车联网场景为高速公路以及路段上有不断行驶的车辆,其中车辆数服从基于车速的泊松分布,场景中有两个基站,其中每个基站配备有边缘服务器;记车辆集合为基站集合为U为车辆总数,K为基站总数;在每一时隙,车辆u的计算任务定义为任务图其中T
max
为当前任务的时延容忍;任务的时延容忍;为子任务集合,也是任务图的点集,C
i
为第i个子任务所需算力,I为当前任务的子任务总数;任务所需算力,I为当前任务的子任务总数;为任务依赖集合,也是任务图的边集,任务i

为任务i的前驱任务,且D
i

,i
为任务i

计算完成后需要传递给任务i的数据量,C
i

为第i

个子任务所需算力;假定子任务已不可再分割,同时为简洁的表示任务依赖关系,定义φ
i
为任务i的前驱结点集,且i

∈φ
i
,为确保卸载的起点节点与终点节点唯一,添加虚拟起点任务为入度为0的节点的前驱结点,添加虚拟终点任务为出度为0的节点的后继节点,且C0=0,C
I
=0。3.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法,其特征在于,建立车辆与基站的通信模型包括基于3GPP TR 36.885的无线信道模型,具体如下:车辆u与所在范围内的基站通信的信道增益h
u,k
考虑大尺度和小尺度衰落,表示为:其中A为路径衰落参数;μ
u
为车辆u的衰落系数,服从均值为1的独立复指数分布;β
u
为车辆u的阴影衰落,服从具有标准偏差的对数正态分布;L
u,k
表示车辆u与基站k的距离,γ为衰减指数;车辆与基站的无线通信基于正交频分多址,车辆u与基站k的带宽由连接至当前基站下所有需要上行的车辆均分,上行信噪比与车辆上行发射功率、信道增益成正比,车辆u与基站k的上行速率为根据香农公式得:
上式中,p
u
为车辆u的上行发射功率,B为基站的总带宽,h
u,k
为车辆u与基站k的信道增益,
′2为高斯白噪声功率,N
up
为需要上行的车辆数,其中车辆u与基站k的上行信噪比需满足:上式中γ
th
为噪声门限;当上行信噪比低于噪声门限时,任务卸载失败;定义车辆u与基站k的下行速率定义车辆u与基站k的下行速率上式中,p
k
为基站下行发射功率,N
do
为需要下行的车辆数。4.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法,其特征在于,建立车辆与基站的计算模型包括:定义a
u,k,i
为0

1二进制的车辆卸载指示变量,a
u,k,i
=1即车辆u的子任务i将任务卸载至基站k对应的边缘服务器,a
u,0,i
为车辆u的子任务i的本地计算指示变量,a
u,0,i
=1即当前时隙车辆u的子任务i的计算任务为本地计算,且虚拟起点任务与虚拟终点任务卸载决策指定为车辆本身,即a
u,0,0
=1,a
u,0,I
=1;针对车辆请求接入边缘端以进行任务卸载时,车辆根据自身的任务情况以及感知边缘端的信息向边缘端请求计算资源,令边缘服务器的计算资源为f
mec
,为计算时延,得:其中C
i
为计算子任务i所需算力,每个边缘服务器有各自的先入先出任务等待队列,当边缘服务器未空闲时,任务按进入队列时间依次等待,若对于任务i,车辆u选择本地计算:其中,为车辆的计算能力,为计算时延;若当前子任务的任务卸载地点与其某一前驱任务的卸载地点不同,则发生任务迁移:定义任务迁移的速率其中子任务当前在基站k对应的边缘服务器作任务卸载:其中k

为子任务i

对应的基站,k

为0则在车辆u本地卸载,R

为光纤传输速率,为基站集合,与分别为上行与下行速率,对于车辆u的子任务i,定义子任务开始累计时延为任务i开始计算时的时隙,其中由任务依赖的性质可知,其子任务开始累计时延必定大于其所有前驱任务的开始累计时延:
上式中,为前驱任务的开始累计时延,φ
i
为任务i的前驱结点集;定义车辆u的子任务i

计算完成后将数据迁移至子任务i的任务调度时延计算完成后将数据迁移至子任务i的任务调度时延其中k、k

分别为子任务i、i

对应的基站,当k为0时,表示为本地卸载;D
i

i
为任务i

计算完成后需要传递给任务i的数据量;为任务迁移的速率;考虑到前驱任务的计算时延、任务迁移时延,应满足:应满足:其中,为子任务i的开始计算累计时延,为子任务i的前驱任务i

的开始计算累计时延,为子任务i

的计算时延,为任务调度时延,为子任务开始累计时延,a
u,k,i
为0

1二进制的车辆卸载指示变量,K为基站总数;上式表示考虑若前驱卸载地点与当前卸载地点一致,则当前任务的开始累计时延应大于前驱任务开始累计时延与计算时延之和,若不一致,则当前任务的开始累计时延应大于前驱任务开始累计时延、计算时延与任务迁移时延之和;对于任务图Task,当确定卸载决策矩阵{a
u,k,i
}
K*I
以及发射功率矩阵{p
u,i
}
I*1
时,p
u,i
为车辆发射功率,I为当前任务的子任务总数,定义二进制任务卸载决策顺序指示变量x
u,i,r
,当x
u,i,r
=1时,车辆u的任务i为第r个进行任务卸载,任务调度指示变量需要满足:=1时,车辆u的任务i为第r个进行任务卸载,任务调度指示变量需要满足:x
u,i

,r
为任务i

的卸载决策顺序指示变量,R为小于任务数的正整数。5.根据权利要求1所述的车联网中基于联邦强化学习的任务调度与资源分配方法,其特征在于,步骤S2中,以车辆任务卸载效益最大化的优化目标,建立最优化模型,具体如下:定义车辆u的任务卸载总时延τ
u
为所有任务完成后累计时延的最大值:上式中max(
·
)为最大值计算函数,分别为子任务0到I的开始计算累计时延,虚拟终点任务的开始累计时延即为整个任务的总时延:对于任务图Task,整个任务的总能耗包括所有子任务的上行能耗与本地计算能耗,定义整个任务的总能耗E
u

上式中,I为当前任务的子任务总数;a
u,0,i
为车辆u的...

【专利技术属性】
技术研发人员:吴焯斌胡斌杰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1