一种基于强化学习的交叉口智能网联车控制方法技术

技术编号：40205495 阅读：6 留言：0更新日期：2024-02-02 22:17

本发明专利技术属于智能交通技术领域，具体公开一种基于强化学习的交叉口智能网联车控制方法，包括以下步骤：步骤1，获取交叉口的智能网联车的状态量；步骤2，将状态量输入交叉口智能网联车控制网络模型中，获取对应的动作和初步奖励；步骤3，循环步骤1‑2，获取多组经验数据，直到当前车辆驶离交叉口；步骤4，记录步骤1‑2的循环步数和智能网联车的通行时间，将每组经验数据中的初步奖励更新为单步奖励，将更新后的经验数据存入经验池中，并排列序号；步骤5，循环步骤1‑4，从经验池中选取经验数据更新交叉口智能网联车控制网络模型的网络参数；本发明专利技术提供了一种在复杂交叉口能够控制智能网联车有效进行主动避让、避障和跟随等动作的控制方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能交通，具体涉及一种基于强化学习的交叉口智能网联车控制方法。

技术介绍

1、在现代城市交通管理领域，交通拥堵、交通事故和紧急救援的复杂性日益增加，需要创新性的方法来解决这些问题。传统的交通信号控制和车辆协同方法常常难以适应不断变化的交通情况，特别是在多辆网联车同时穿越交叉口并需要及时避让特殊车辆(如急救车)时，问题更加复杂。

2、强化学习算法是应对这些挑战的一种极具潜力的方法，强化学习能够使交通系统在实时环境中不断学习和优化决策，控制车辆做出准确的运动。其可在虚拟环境中训练，在真实环境中部署，有效减少训练成本和时间；可同时控制多智能体协同运动，有效解决交叉口复杂车况协同控制的问题。

3、然而现有的强化学习网联车控制方法有着明显的缺陷：环境适应性不强，不能实现恶劣天气下实时监控和控制；模型网络存在高估问题，准确性不高；仅考虑避障问题，并未考虑到实际情况中其他环境因素的干扰；模型训练过程中筛选数据随机性太强，网络训练效果不佳。

技术实现思路

1、本专利技术的目的在于提供一种针对复杂的交叉口能够控制智能网联车有效进行主动避让、避障和跟随等动作的基于强化学习的交叉口智能网联车控制方法。

2、基于上述目的，本专利技术采用如下技术方案：

3、一种基于强化学习的交叉口智能网联车控制方法，包括以下步骤：

4、步骤1，获取交叉口的智能网联车的状态量，状态量包括车辆距离交叉口中心距离，车辆与交叉口中心线夹角，车辆运行速度，车辆

5、步骤2，将状态量输入交叉口智能网联车控制网络模型中，获取对应的智能网联车的动作和初步奖励，动作包括速度、加速度和方向盘转角。

6、步骤3，循环步骤1-2，获取多组经验数据，直到当前车辆驶离交叉口，每组经验数据均包括当前时刻智能网联车的状态量、动作、初步奖励和下一时刻的状态量；当前循环的状态量与上一次循环的状态量、动作和初步奖励组成一组经验数据。

7、步骤4，记录步骤1-2的循环步数和智能网联车的通行时间，将每组经验数据中的初步奖励更新为单步奖励，将更新后的经验数据存入经验池中，并排列序号。

8、步骤5，循环步骤1-4，当循环次数达到设定值后，采用优先经验回放算法从经验池中选取经验数据更新交叉口智能网联车控制网络模型的网络参数。

9、步骤6，循环步骤1-5，直到智能网联车控制网络模型收敛。

10、进一步的，在步骤2中，获取初步奖励的方法为：

11、

12、式中，rsi为预测轨迹碰撞奖励，c为车辆运行变常量，sigmoid函数控制参数数值在[0,1]之间，δv表示当前车辆与前车速度差，δd表示当前车与前车距离差。

13、进一步的，在步骤2中，获取预测轨迹碰撞奖励的方法为：将交叉口的智能网联车以及和其他车辆的关键信息输入车辆轨迹预测模型中，判断是否会发生碰撞，根据判断结果得出预测轨迹碰撞奖励。

14、进一步的，在步骤2中，获取智能网联车的动作的方法如下：

15、at＝μ(st|θμ)+∈

16、∈＝clip(n(0,σ),-b,b)

17、式中，at表示智能网联车的动作；st表示当时刻前状态量；θμ表示actor网络参数；μ(·)表示actor网络；∈表示随机噪声参数；clip函数表示当n(0,σ)<-b时∈＝-b，当n(0,σ)>b时∈＝b，除此之外，∈＝n(0,σ)；n(0,σ)表示满足正态分布；-b和b表示固定参数，b>0。

18、进一步的，在步骤4中，单步奖励计算方法如下：

19、

20、式中，ω1表示修正系数，ta表示智能网联车通过交叉口的通行时间，ts表示步骤1-2的循环次数。

21、进一步的，在步骤5中，从经验池中选取经验数据的方法为：

22、

23、式中，p(c)表示从所述经验池中筛选出来的一组经验数据；c表示被抽取经验数据的序号，pk表示被抽取的经验数据的优先级，α表示用于调节数据样本优先采样程度的预设参数。

24、采用优先经验回放算法从所述经验池中筛选出经验数据，相较于传统随机采样，具有以下优势：(1)提高样本效率：传统的经验回放方法从缓冲区中均匀地随机抽样经验，可能浪费了许多次迭代中积累的有价值的经验。优先级采样允许智能体更频繁地访问对其学习最有帮助的经验，从而提高了样本的效率。(2)加速学习过程：通过更频繁地重播具有高优先级的经验，智能体可以更快地学习到重要的策略和知识，从而加速学习过程。这对于训练时间长、复杂性高的任务尤其有益。(3)提高算法稳定性：优先级经验回放有助于平衡探索和利用之间的权衡。它确保了探索性较强的经验仍然有机会被重播，以防止算法陷入局部最优解。(4)更好地应对稀有事件：对于稀有事件或高回报事件，它们通常具有较高的优先级，因此更有可能被选中并用于训练，从而有助于智能体更好地应对这些情况。(5)适应不同任务：优先级经验回放使智能体能够更灵活地适应不同任务和环境，因为重要经验可以在不同任务之间共享和重用。(6)降低训练过程的方差：通过引入优先级，可以减少样本选择的方差，这有助于更稳定地训练深度强化学习模型，减少训练过程中的抖动。(7)提高性能：在许多强化学习任务中，引入优先级经验回放可以显著提高算法的性能，使其在更短的时间内取得更好的结果。

25、进一步的，所述交叉口智能网联车控制网络模型包括actor网络、critic1网络、critic2网络、targetactor网络、target critic1网络和target critic2网络；所述actor网络用于根据当前时刻的状态量输出动作；所述targetactor网络用于根据下一时刻的状态量输出动作；所述critic1网络和critic2网络用于根据当前时刻的状态量和动作输出状态价值评估值；所述target critic1网络和target critic2网络用于根据下一时刻的状态量和动作输出状态价值目标值。

26、进一步的，在步骤5中，critic1和critic2网络参数更新过程为：利用targetactor网络计算出下一时刻状态量下的动作：

27、at'＝μ'(st'∣θμ')

28、其中，at'为下一时刻状态量下的动作，θμ'为target actor网络的网络参数，μ'(·)表示target actor网络；

29、为了增加智能网联车控制网络模型动作随机探索机制，防止陷入局部最优解，在目标动作at'上加入噪声：

30、at'＝μ(st|θμ')+∈

31、∈＝clip(n(0,σ),-b,b)

32、接着计算出状态动作对(st',at'本文档来自技高网...

【技术保护点】

1.一种基于强化学习的交叉口智能网联车控制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤2中，获取初步奖励的方法为：

3.如权利要求2所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤2中，获取预测轨迹碰撞奖励的方法为：将交叉口的智能网联车以及和其他车辆的关键信息输入车辆轨迹预测模型中，判断是否会发生碰撞，根据判断结果得出预测轨迹碰撞奖励。

4.如权利要求3所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤2中，获取智能网联车的动作的方法如下：

5.如权利要求4所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤4中，单步奖励计算方法如下：

6.如权利要求5所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤5中，从经验池中选取经验数据的方法为：

7.如权利要求1-6任一所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，所述交叉口智能网联车控制网络模型包括Actor网络、Critic

8.如权利要求7所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤5中，Critic1和Critic2网络参数更新过程为：利用TargetActor网络计算出下一时刻状态量下的动作：

9.如权利要求8所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤5中，Actor网络参数更新方法为：在Ctitic1和Critic2网络更新d步之后，利用Critic1计算状态价值评估值qt：

10.如权利要求9所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤5中，TargetActor网络参数更新过程为：

...

【技术特征摘要】

1.一种基于强化学习的交叉口智能网联车控制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤2中，获取初步奖励的方法为：

4.如权利要求3所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤2中，获取智能网联车的动作的方法如下：

5.如权利要求4所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤4中，单步奖励计算方法如下：

6.如权利要求5所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，在步骤5中，从经验池中选取经验数据的方法为：

7.如权利要求1-6任一所述的基于强化学习的交叉口智能网联车控制方法，其特征在于，所述交叉口智能网联车控制网络模型包括actor网络、critic1网络、criti...

【专利技术属性】
技术研发人员：王猷，史恒亮，陈化奎，马琳，高红波，周云龙，马驰骋，曲雅婷，
申请(专利权)人：洛阳职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人