【技术实现步骤摘要】
一种基于异步强化学习算法的无信号灯交叉路口车辆调度方法
[0001]本专利技术涉及智能交通领域,特别是高密度交通流交叉路口环境下智能网联车辆的调度方法。
技术介绍
[0002]随着世界人口的快速增长,汽车数量急剧增加,这给现有的城市道路系统带来了沉重的负担。在交叉路口,驾驶员的驾驶行为有很大的不确定性,包括是否穿过道路以及转向和加减速等,给驾驶环境带来了很大的安全隐患。信号灯可以减少交叉路口拥堵和交通事故的发生,是解决交叉路口多车协调问题的一种方法。目前有一些工作针对信号灯的相序和相位持续时间进行了优化,但是,信号灯控制策略无法消除交叉口车辆停车延误和走停波,影响驾驶体验。
[0003]车路协同系统(Vehicle
‑
Infrastructure Cooperative System,VICS)作为基于先进的传感和无线通讯等技术的,能够实现车
‑
车、车
‑
路动态实时信息交互,完成交通信息采集和融合的,从而保障在复杂交通环境下车辆行驶安全、实现道路交通主动控制、提高 ...
【技术保护点】
【技术特征摘要】
1.一种基于异步强化学习算法的无信号灯交叉路口车辆调度方法,其特征在于,包括以下步骤:步骤1、初始化环境参数,包括场景道路宽度、长度、车道数以及车辆的数量,位置分布,初始速度与目标方向等;步骤2、RSU初始化模型参数;步骤3、智能网联车辆初始化策略网络和价值网络的参数,清空经验缓冲区;步骤4、车辆向RSU请求策略网络和价值网络的最新参数,RSU将模型参数发送给车辆;步骤5、车辆利用最新的策略网络与环境进行交互一定时长,将交互得到的经验数据存放到经验缓冲区,计算累计策略梯度并发送给RSU;步骤6、RSU利用智能体发送的累计梯度更新模型参数。步骤7、加载训练好的模型,在相同的场景下进行测试,测试环节中,智能体获取观测值、执行决策,记录并评估所提算法性能。2.根据权利要求1所述的基于异步强化学习算法的无信号灯交叉路口车辆调度方法,其特征在于,RSU上存储策略网络模型参数θ
r
和价值网络w
r
分别用来对智能网联车辆上部署的策略网络和价值网络赋值。3.根据权利要求1所述的基于异步强化学习算法的无信号灯交叉路口车辆调度方法,其特征在于,步骤3中,分别用π(a|s;θ),v(s;w)表示部署在智能网联车辆上的策略网络和价值网络,参数分别θ和w。策略网络用来指导车辆执行动作,并将动作转换为油门、刹车等底层指令。价值网络用来评价策略网络的好坏并指导策略网络进行参数更新。4.根据权利要求1所述的基于异步强化学习算法的无信号灯交叉路口车辆调度方法,其特征在于,步骤4中,每当车辆发来请求,RSU就把θ
r
和w
r
发送给该车。车辆利用RSU传来的参数赋值,θ
←
θ
r
w
←
w
r
。5.根据权利要求1所述的基于异步强化学习算法的无信号灯交叉路口车辆调度方法,其特征在于,步骤5中,车辆利用最新的策略与环境交互n次(n可以由用户自己确定),计算累积策略梯度,该方法实施步骤如下:步骤1、基于观察到的状态s
t
,智能网联车辆根据策略网络做决策a
t
~π(
·
|s
t
,θ),然后获取奖励r
t
和新的状态s
t+1
,其中状态s
t
为利用激光雷达观测到的障碍物射线数组,奖励r
t
定义为周围n辆车的平均速度与自身速度相加,n由V2V的通信距离决定,这样设置奖励函数可以鼓励智能网联车辆提升路口效率,(1)状态空间:智能体进行动作决策之前首先需...
【专利技术属性】
技术研发人员:吕勇,欧阳卓,胡鹤轩,谭国平,周思源,袁子扬,许天霖,岳海洋,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。