当前位置: 首页 > 专利查询>皖西学院专利>正文

一种基于深度强化学习的多车协同感知任务调度方法技术

技术编号:46585220 阅读:1 留言:0更新日期:2025-10-10 21:22
本发明专利技术公开了一种基于深度强化学习的多车协同感知任务调度方法,属于智能交通系统与车联网协同感知技术领域,包括如下步骤:在每个调度时间片内,由成员车辆与边缘服务器向头部车辆上报当前感知信息;头部车辆将自身任务队列长度作为系统状态输入,通过PPO算法生成调度动作;头部车辆将感知任务下发至成员车辆与边缘服务器,并收集各节点在执行任务后的反馈;根据各节点对感知任务的处理时间与响应波动,计算系统奖励函数;系统基于多个调度周期的状态‑动作‑奖励轨迹,结合优势估计优化策略网络。本发明专利技术以头部车辆感知任务为中心,结合状态压缩、任务分发动作离散建模与长期稳定性奖励函数设计,实现大范围低延迟协同感知的智能调度优化。

【技术实现步骤摘要】

本专利技术涉及智能交通系统与车联网协同感知,具体为一种基于深度强化学习的多车协同感知任务调度方法


技术介绍

1、随着自动驾驶与车联网(vehicle-to-everything,v2x)的发展,单车感知难以满足在复杂动态环境中的安全驾驶需求。为提升环境感知精度和范围,业界已开始广泛探索多车协同感知的方案。其核心理念是通过车辆之间(v2v)以及车辆与边缘云(v2i)之间的信息交互,实现感知数据的共享与处理形成具备建模全局视角的能力。

2、然而,在协同感知中,仍存在以下技术挑战:

3、(1)任务调度状态维度高、响应不及时:由于车辆感知任务的数量、链路质量和计算资源动态变化,传统集中式调度和静态分配策略难以适应高动态车载环境;

4、(2)动作不可执行问题严重:多数现有强化学习方法输出连续型动作,在实际中难以映射为“整数任务+周期+功率约束”的可执行调度;

5、(3)优化目标短视、系统波动大:若仅最小化瞬时任务完成时间,忽略任务响应时间的波动性,将导致协同感知效果不稳定,影响车辆行驶安全性。p>

6、虽然部本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:步骤S1中,所述感知任务状态包括当前待处理的感知任务队列长度Qi和每个任务的平均计算密度Z i;所述计算资源包括当前可用CPU频率CPUi。

3.根据权利要求1所述的一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:步骤S2中,PPO策略网络包括策略网络与值函数网络两个子结构,分别用于生成调度动作和进行状态值估计。

4.根据权利要求1所述的一种基于深度强化学习的多车协同感知任务调度...

【技术特征摘要】

1.一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:步骤s1中,所述感知任务状态包括当前待处理的感知任务队列长度qi和每个任务的平均计算密度z i;所述计算资源包括当前可用cpu频率cpui。

3.根据权利要求1所述的一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:步骤s2中,ppo策略网络包括策略网络与值函数网络两个子结构,分别用于生成调度动作和进行状态值估计。

4.根据权利要求1所述的一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:步骤s2中,所述调度动作包括感知任务数量、相应发射功率及调度周期,且满足功率总和不超过预设上限。

5.根据权利要求4所述的一种基于深度强化学习的多车协同感知任务调度方法,其特征在于:所述调度动作中的任务数量为非负整数,且调度周期ki从预...

【专利技术属性】
技术研发人员:张锋辉符茂胜马家鑫周先存郑世健陈家俊李瑞霞张英豪
申请(专利权)人:皖西学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1