当前位置: 首页 > 专利查询>湖南大学专利>正文

基于深度强化学习的车联网联邦学习激励方法和系统技术方案

技术编号:39432819 阅读:35 留言:0更新日期:2023-11-19 16:16
本申请提供一种基于深度强化学习的车联网联邦学习激励方法,通过设置训练决策,并针对所述训练决策构建激励网联车辆参与训练任务的收益模型,所述训练决策包括两个方向:第一,网联车辆选择本地进行模型训练;第二,网联车辆选择将数据传输至边缘服务器进行模型训练;在网联车辆端部署深度强化学习模型,根据深度强化学习模型学习最优决策以最大化其实际收益。本申请可以提高联邦学习的鲁棒性与可扩展性,可有效驱动网联车辆训练高精度的联邦学习模型,并且具备较高的训练效率。本申请还提供一种基于深度强化学习的车联网联邦学习激励系统。激励系统。激励系统。

【技术实现步骤摘要】
基于深度强化学习的车联网联邦学习激励方法和系统


[0001]本申请属于边缘计算
,具体涉及一种基于深度强化学习的车联网联邦学习激励方法和系统。

技术介绍

[0002]随着智能网联车辆的迅速发展,网联车辆上配备了越来越多的传感器,不断产生大量的数据。然而,由于车载计算单元的计算能力有限,无法实时满足智能驾驶的需求,也无法充分利用所采集的数据。移动边缘计算技术能够在接近网联车辆的路侧提供额外的计算资源、存储资源和大量的网络带宽。
[0003]联邦学习作为一种分布式机器学习框架,能在不交换网联车辆用户隐私数据的情况下让网联车辆参与到模型训练中,保障了本地数据的隐私安全问题。在联邦学习过程中,为了促进联邦学习服务器和客户端之间的合作,通常会设置激励机制,通过给与不同奖励来诱使客户端最大化的提供自身的资源。
[0004]相关技术中,CN114647982A公开了一种基于动态契约理论的车联网联邦学习激励方法;CN11 5204414A公开一种基于激励机制的联邦学习优化方法及系统,上述两种方案种设计的联邦学习及激励方法为集中式决策,这在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车联网联邦学习激励方法,其特征在于,包括如下步骤:S1:设置训练决策,针对所述训练决策构建激励网联车辆参与训练任务的收益模型,所述训练决策包括两个方向:第一,网联车辆选择本地进行模型训练;第二网联车辆选择将数据传输至边缘服务器进行模型训练;S2:在所述边缘服务器部署联邦学习模型,向所述边缘服务器覆盖范围内的网联车辆广播所述收益模型以及训练任务;S3:在网联车辆部署深度强化学习模型,以所述网联车辆为智能体,以所述训练决策为动作空间,以所述网联车辆每时刻的实际收益作为所述智能体的奖励函数,所述智能体通过与环境交互来学习下一时刻的动作,以智能体的奖励最大化为目标学习最优动作,并将训练所得的模型参数回传至所述边缘服务器。2.根据权利要求1所述的基于深度强化学习的车联网联邦学习激励方法,其特征在于,所述收益模型表示为:式中,a
k,t
∈{0,1}表示网联车辆k在t时刻的训练决策,a
k,t
=1时,网联车辆k选择本地进行模型训练,a
k,t
=0时,网联车辆k选择将数据传输至边缘服务器进行模型训练;T表示训练终止时间;表示t时刻网联车辆k选择选择本地进行模型训练时的模型偏差收益;表示t时刻网联车辆k数据传输至边缘服务器进行模型训练时的数据出售收益;其中:式中,α
k
为常数,表示模型偏差收益权重系数;为t时刻网联车辆k在本体训练的模型参数;为t时刻网联车辆k在本体训练的模型精度;表示t时刻网联车辆k在本地训练的模型偏差;式中,δ
k
为常数,表示数据出售收益权重系数;表示出售的数据字节大小。3.根据权利要求2所述的基于深度强化学习的车联网联邦学习激励方法,其特征在于,所述深度强化学习模型中,环境状态集合S
t
表示为:式中,C
k
表示网联车辆k的初始CPU计算资源;i表示初始时刻索引;a
k,i
表示第i个时刻索引下网联车辆k的模型偏差收益权重系数;表示第i个时刻索引下网联车辆k的CPU计算资源;P
k
表示网联车辆k的可用流量预算;第i个时刻索引下网联车辆k的可用流量;第i个时刻索引下网联车辆k出售的数据字节大小;表示表示t时刻网联车辆k与边缘服务器之间的数据传输速率。
4.根据权利要求1所述的基于深度强化学习的车联网联邦学习激励方法,其特征在于,所述深度强化学习模型的训练过程具体为:采用异步的优势行动者评论家算法,创建每辆参与模型训练任务的网联汽车为智能体,每个智能体并行地与环境进行交互并训练其本...

【专利技术属性】
技术研发人员:王晓伟殷陈龙马贵福胡满江边有钢徐彪秦晓辉秦洪懋秦兆博谢国涛丁荣军
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1