System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于半监督学习的自动驾驶商用车编队行驶决策方法技术_技高网

一种基于半监督学习的自动驾驶商用车编队行驶决策方法技术

技术编号:41066617 阅读:3 留言:0更新日期:2024-04-24 11:21
本发明专利技术公开了一种基于半监督学习的自动驾驶商用车编队行驶决策方法。首先,构建基于半监督学习的商用车编队行驶决策模型,并设计了综合考虑防碰撞、防侧翻、行进一致性、横向距离偏移量和平顺性的奖励函数。其次,为了解决动作空间采用连续控制量导致的模型不易收敛的问题,构建了基于数据聚合的编队行驶决策子网络。最后,为了探索包含常规、边缘和危险等工况在内的驾驶策略,构建了基于改进软演员评论家的编队行驶决策子网络。本发明专利技术提出的决策方法,解决了现有的商用车驾驶决策方法在编队变道等工况下安全性差、决策不准确的问题。

【技术实现步骤摘要】

本专利技术涉及一种商用车自动驾驶决策方法,尤其是涉及一种基于半监督学习的自动驾驶商用车编队行驶决策方法,属于汽车安全。


技术介绍

1、随着智能驾驶技术的快速发展,商用车迎来了前所未有的发展机遇。智能驾驶为解决商用车的人力成本、交通事故以及长途物流运输等难题,带来了全新的解决方案。智能驾驶主要涉及环境感知、规划决策和操作控制等关键环节。其中,驾驶决策模块将环境感知模块的感知结果、定位结果、预测结果以及环境先验信息作为输入,根据决策方法,规划出合理的车辆驾驶行为,并发送给后续的执行模块。因此,驾驶决策决定了智能驾驶的合理性和有效性,是智能驾驶的重要中枢。

2、在智能驾驶领域,近年来飞速发展的编队行驶肩负着减少能源消耗、提高行车安全性和缓解交通拥堵的重任,也是最有可能在高速公路上率先落地的智能驾驶应用之一。编队行驶的车辆由领航车和跟随车组成。领航车作为编队中最前方的车辆,是整个编队行为的决策者,对编队行为进行管控和决策。跟随车辆作为编队中位于领航车辆之后的所有其他车辆,具有与前方车辆保持合理安全距离的能力。对于跟随车而言,现有的编队行驶决策多关注纵向的驾驶策略,忽略了编队变道过程中车辆的侧倾稳定性问题,难以有效地保障商用车编队行驶的安全性和平顺性。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题,为了实现商用车编队行驶特别是编队变道过程中的安全驾驶决策,特别创新地提出了一种基于半监督学习的自动驾驶商用车编队行驶决策方法。该方法不仅考虑了编队变道过程中车辆的侧倾稳定性问题,还综合考虑了车辆碰撞、侧翻、行进一致性等因素对于编队行驶安全性的影响。该方法能够有效保障商用车编队行驶特别是编队变道过程中的安全性,解决了现有的商用车驾驶决策方法在某些工况下安全性差、决策不准确的问题。同时,该方法使用的传感器成本较低,计算方法清晰,计算耗时低,可以实时地提供纵向加速度、侧向加速度等连续决策输出,便于大规模推广。

2、为了实现本专利技术的上述目的,本专利技术提供了一种基于半监督学习的自动驾驶商用车编队行驶决策方法。首先,将编队行驶的序贯决策问题转化为马尔科夫决策过程,构建基于半监督学习的商用车编队行驶决策模型,并设计了综合考虑防碰撞、防侧翻、行进一致性、横向距离偏移量和平顺性的奖励函数。其次,为了解决动作空间采用连续控制量导致的模型不易收敛的问题,构建了基于数据聚合的编队行驶决策子网络,通过监督学习的方式,引导该网络学习专家经验。最后,为了探索包含常规、边缘和危险等工况在内的驾驶策略,构建了基于改进软演员评论家的编队行驶决策子网络,通过无监督学习的方式,进一步学习跟随车的编队行驶策略。其中,为了避免因神经网络过拟合导致决策模型性能受限的问题,借鉴集成学习的思想,构建并训练了3个用于策略学习的策略网络。具体包括以下步骤:

3、步骤一:构建基于半监督学习的商用车编队行驶决策模型

4、多辆商用车在高速公路上编队行驶。其中,第一辆车为领航车,后续车辆为跟随车,编队中的各车辆以固定的车间距离同时行进,车车之间通过车联网通信实时交换车辆与周围环境信息。对于跟随车,如何实现安全、有效的编队行驶决策是本专利技术的研究目标。

5、考虑到跟随车的未来运动状态受到当前动作和当前运动状态的影响,将编队行驶的序贯决策问题建模为马尔可夫决策过程(markov decision process,mdp),并将该过程定义为(s,a,γ,p,r),其中,st∈s={s0,s1,...}表示一组状态空间,其中的参数可通过车载传感器测量获得,r表示奖励函数,p:s×a×s→r表示状态转移概率,γ∈[0,1]表示用于计算累积奖励的折扣因子。mdp的任务是学习最佳的编队行驶策略π*,且该策略能够使累积奖励最大化。为了使跟随车执行安全、有效的编队行驶策略,本专利技术将监督学习和无监督学习方法相结合,充分发挥两者的优势,构建了一种基于半监督学习的商用车编队行驶驾驶决策模型。该模型由两部分组成。第一部分采用深度神经网络结构,通过监督学习的方式学习编队行驶的专家经验。第二部分利用改进的软演员评论家算法,构建编队行驶决策子网络。通过无监督学习的方式,进一步学习跟随车的编队行驶策略。决策模型的设计细节如下。

6、对马尔科夫决策任务中的状态空间(即决策模型的输入)、动作空间(即决策模型的输出)和奖励函数进行定义。

7、1)定义状态空间

8、引入11维的时间序列信息描述跟随车的运动状态信息和跟随车与领航车的相对运动状态信息,状态空间可描述为:

9、st=[x,y,vlon,vlat,alon,alat,θh,xrel,yrel,vrel,arel]    (1)

10、式中,st表示t时刻的状态空间;。x,y分别表示跟随车的横向位置和纵向位置,vlon,vlat分别表示跟随车的纵向速度和侧向速度,单位为m/s,alon,alat分别表示跟随车的纵向加速度和侧向加速度,单位为m/s2。以上信息可通过北斗系统或高精度差分全球导航卫星系统测量获得。θh表示跟随车的航向角,单位为度,可通过惯性导航系统获得。xrel,yrel,vrel,arel分别表示跟随车与领航车的相对横向位置、相对纵向位置、相对速度和相对加速度。以上信息可通过毫米波雷达测量获得。

11、2)定义动作空间

12、在现有的编队行驶决策方法中,通常将纵向加速度作为输出的驾驶策略。尽管编队行驶过程是以纵向控制为主,但在编队变道、转向等过程中,不能忽略横向控制对于编队行驶决策性能的影响。为了充分覆盖跟随车在编队行驶过程中的驾驶动作,将连续的纵向加速度和侧向加速度作为动作空间中的控制量,基于当前状态所做出的驾驶策略可表示为:

13、at=[alon,alat]    (2)

14、其中,alon和alat分别表示输出的纵向加速度和侧向加速度,单位均为m/s2,取alon=[-3,1.5],alat=[-3,3]。

15、3)定义奖励函数

16、为了评估驾驶策略的优劣,设计了如下式所示的奖励函数。

17、rt=r1+r2+r3+r4    (3)

18、式中,rt表示t时刻的奖励函数,r1,r2,r3,r4,r5分别表示防碰撞奖励函数、防侧翻奖励函数、行进一致性奖励函数、横向偏移量奖励函数和平顺性奖励函数。

19、首先,在编队行驶过程中,跟随车应始终与领航车保持合理的安全间距。同时,还应避免因跟随领航车进行紧急制动而造成后向碰撞。

20、r1(t)=-α1·e-|th(t)-1.5|-α1·e-|rttc(t)-2|    (4)

21、式中,th(t)表示t时刻的车头时距,rttc(t)表示t时刻的后向碰撞时间,单位均为s,α1表示权重系数,取α1=2。

22、在所有商用车交通事故中,侧翻事故的危害程度仅次于碰撞事故,位居第2位。为此,除了避免碰撞事故外,跟随车在编队行驶过程中,特别是本文档来自技高网...

【技术保护点】

1.一种基于半监督学习的自动驾驶商用车编队行驶决策方法;首先,构建基于半监督学习的商用车编队行驶决策模型,并设计了综合考虑防碰撞、防侧翻、行进一致性、横向距离偏移量和平顺性的奖励函数;其次,为了解决动作空间采用连续控制量导致的模型不易收敛的问题,构建了基于数据聚合的编队行驶决策子网络;最后,为了探索包含常规、边缘和危险等工况在内的驾驶策略,构建了基于改进软演员评论家的编队行驶决策子网络;其特征在于:

【技术特征摘要】

1.一种基于半监督学习的自动驾驶商用车编队行驶决策方法;首先,构建基于半监督学习的商用车编队行驶决策模型,并设计了综合考虑防碰撞、防侧翻、行进一致性、横向距离偏移量和平顺性的奖励函数;其次,为了解决动作...

【专利技术属性】
技术研发人员:胡玮明刘延周金应苏梦月汤超
申请(专利权)人:中汽院重庆汽车检测有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1