【技术实现步骤摘要】
一种无信号交叉口自动驾驶汽车通行协同决策控制方法
[0001]本专利技术涉及交通决策相关领域,具体是一种无信号交叉口自动驾驶汽车通行协同决策控制方法。
技术介绍
[0002]近年来随着我国经济的快速发展,汽车保有量逐年快速增加,造成的交通拥堵问题日益严重,尤其是在无信号交叉口区域,汽车从各个方向驶来,汇集,交错和分离,产生了大量的行驶冲突,导致了大量的行驶延误和交通事故,对城市交通系统的安全和效率产生了负面的影响。
[0003]目前用于无信号交叉口自动驾驶汽车通行决策控制的算法可分为集中式控制和分布式控制,集中式控制指汽车行驶到交叉口时,把当前车辆行驶状态和在交叉口的期望行驶方向等信息发送给路侧单元,路侧单元对所有车辆发来的信息进行接收,并计算通行策略,再把控制指令发送给每辆车,各车严格按照指令行驶通过交叉口;集中式算法大多是基于固定的通行策略,传统的数学模型或强化学习展开的,典型的固定通行策略如先到先服务(FCFS),路权制定等通常无法保证在所有交通流量工况下均实现良好的控制效果;传统的数学模型如MPC,MILP等 ...
【技术保护点】
【技术特征摘要】
1.一种无信号交叉口自动驾驶汽车通行协同决策控制方法,其特征在于,包含以下步骤:通过设定合理的状态空间、动作空间以及奖励函数进行马尔可夫建模,所述状态空间表征智能体所处环境的所有状态的集合,所述动作空间表征智能体在环境中可以采取的所有动作的集合,所述奖励函数表征智能体在某一状态下采取某一动作的对应结果;基于actor
‑
critic架构建立策略网络以及价值网络,所述策略网络用于基于当前环境状态选择智能体需要采取的动作,所述价值网络用于评估当前动作采取后的对应结果;通过V2X技术对车辆数据进行实时采集与控制,获取车辆的位置、速度以及在交叉口的期望行驶方向信息,并判断获取车辆与交叉口的距离、车辆间是否存在路径冲突以及冲突点距离,通过预设的路侧单元计算获取控制指令并输出至各车辆;利用近端策略优化PPO进行决策规划,以智能体所处环境状态为输入,智能体根据当前策略选择采取的动作,进而获得下一时间步的环境状态作,并对经历的状态及动作轨迹进行搜集,用于神经网络训练迭代,结合搜集的轨迹及价值网络对策略进行评估,计算获取策略网络与价值网络的损失函数并用于策略更新。2.根据权利要求1所述的一种无信号交叉口自动驾驶汽车通行协同决策控制方法,其特征在于,所述通过设定合理的状态空间、动作空间以及奖励函数进行马尔可夫建模的步骤包括:基于交叉口的环境状态以及汽车的运动状态进行场景建模,所述场景建模包括车道标记、车道行驶规则、车辆行驶状态以及车辆对应车道间的空间关系;基于状态空间、动作空间、奖励函数以及相对应状态转移概率和折扣因子建立马尔可夫模型,所述状态转移概率用于表征智能体在某一状态下采取某一动作到另一状态的概率,当智能体在某一状态在采取动作后,赋予一定的奖励,所述奖励大小基于采取某一动作后的结果设置,所述折扣因子表征未来奖励与近期奖励的重要程度,用于奖励的长久的未来奖励对当前收获的影响。3.根据权利要求2所述的一种无信号交叉口自动驾驶汽车通行协同决策控制方法,其特征在于,所述奖励函数包括步骤奖励和回合奖励;所述步骤奖励,包括时间奖励、接近碰撞点的同步度奖励以及加加速度奖励,所述时间奖励用于在每个时间步给予一定数值的负奖励,所述接近碰撞点的同步度奖励用于引导算法向汽车不同时接近其碰撞点的方向快速优化,以达到快速碰撞的目的,所述加加速度奖励用于提高算法控制下汽车的行驶舒适型;所述回合奖励,包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。