城市环境下智能驾驶车辆环境自适应汇入方法技术

技术编号:20023628 阅读:24 留言:0更新日期:2019-01-06 03:26
本发明专利技术公开了一种城市环境下智能驾驶车辆环境自适应汇入方法,包括提取初始状态向量;根据贪心策略计算动作变量,执行汇入动作的同时更新汇入场景,动作变量如果采取随机动作,则以均匀概率选取汇入间隙和汇入动作,如果采用智能方法,候选间隙包括前车、后随车与汇入车辆,比较所有候选间隙的最大动作值函数,选择其中最大值函数,从中挑选最大值对应的间隙和动作,返回目标汇入间隙和智能汇入动作;感知下一时刻的状态向量;根据环境反馈信息计算奖励值;将初始状态向量、动作变量、下一时刻的状态向量、奖励值存入样本集,达到足够样本后根据LSQ方法进行评估和改进;重复上述步骤直至汇入成功。本发明专利技术样本集、学习时间低于Q学习算法,成功率高。

【技术实现步骤摘要】
城市环境下智能驾驶车辆环境自适应汇入方法
本方法涉及一种在复杂城市环境下,综合考虑目标间隙选择与期望汇入时机的环境自适应汇入方法。
技术介绍
无人驾驶车辆作为未来交通发展趋势,在解决交通安全以及治理道路拥堵等问题上极具潜力。作为无人驾驶车辆的“大脑”,决策系统体现了其智能化水平,提高决策系统在复杂城市环境下的泛化和适应能力,对于研制能实际上路行驶的无人驾驶汽车至关重要。而传统基于规则学习的无人驾驶车辆只能适应单一的驾驶环境,不能面对复杂多变的真实场景,做出的决策可能不满足鲁棒性和灵活性的要求。城市环境下快速路汇入要求在短时间和有限的空间等多约束条件下做出安全有效的决策,给无人驾驶车辆的决策系统提出了更高的要求。在汇入行为策略研究方面,Yang提出了纵向的控制算法,引导无人车汇入主线并根据距目标间隙的距离提供了速度策略。Liu等利用改进后的博弈论框架对高速公路匝道的汇入行为进行建模。Ran等人关注汇入车辆如何在高速公路匝道驶入期望的汇入位置,并通过将车辆的加减速模型量化彼此之间的交互作用。上述研究都集中在告诉公路环境,高密度的城市环境少有涉及,并且大多研究考虑的是换道的战术决策,较少研究描述换道的连续性过程。在强化学习在驾驶行为决策中的应用方面,Abbeel和吴恩达考虑车辆与周边环境的交互,利用逆向强化学习,学习车辆操纵,利用奖励函数反应环境对行为操纵的影响,建立环境影响因素与车辆运动之间的函数关系映射。国防科大徐昕研究团队提出了基于近似策略迭代KLSPI算法处理智能车辆在高速公路连续状态空间下的避障与导航问题。Shalev-Shwartz讨论了一种保证安全的强化学习方法,其将策略网络分成了两个部分,并分别学习驾驶的安全性和舒适性,但是模型有效性只在简单的模拟环境中进行了验证。上述方法在考虑汇入仅考虑了几个的指标,无法模拟人为驾驶的自动汇入驾驶体验。
技术实现思路
1、专利技术目的。本专利技术综合考虑了安全性、舒适性以及时效性等评价指标,建立了现行加权的综合奖励值模型,同时动作空间设定包含二维变量,即纵向速度决策变量和横向速度决策变量,解耦无人驾驶车辆的横、纵向运动,实现汇入过程的连续性控制,提高了无人驾驶车辆在汇入过程中对动态环境的适应能力。2、本专利技术所采用的技术方案。本专利技术提出了一种城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于包括如下步骤:提取初始状态向量;根据贪心策略计算动作变量,执行汇入动作的同时更新汇入场景,动作变量如果采取随机动作,则以均匀概率选取汇入间隙和汇入动作,如果采用智能选取动作,候选间隙包括前车、后随车与汇入车辆,比较所有候选间隙的最大动作值函数,选择其中最大值函数,从中挑选最大值对应的间隙和动作,返回目标汇入间隙和智能汇入动作;感知下一时刻的状态向量;根据环境反馈信息计算奖励值;将初始状态向量、动作变量、下一时刻的状态向量、奖励值存入样本集,达到足够样本后根据LSQ方法对策略进行评估和改进;重复执行上述步骤直至汇入成功。更进一步,所述的状态空间描述为七维的向量空间,其中,前三维为汇入车辆的位置坐标和速度信息,后四维为目标车道前车和后随车在仿真的过程中纵向位置坐标以及速度信息。更进一步,所述的初始状态空间采用的基函数采用两车辆的碰撞时间、车头时距、相对距离和相对速度以及运动状态纳入基函数。更进一步,所述的动作变量包括纵向速度决策变量和横向速度决策变量。更进一步,所述的动作变量中的纵向速度决策变量的加速度离散为急减速,减速,匀速,加速,急加速五个动作值,横向速度决策变量为两个动作值,则纵向速度决策变量和横向速度决策变量的动作空间为10个动作。更进一步,所述的计算奖励值的奖励函数为安全性奖励值、任务成功或失败的奖励值、汇入效率奖励值、限速奖励值、舒适性奖励值的线性加权函数。更进一步,所述的限速即安全度奖励函数具体为:当碰撞或易于碰撞时,给予一个较大的负奖励(惩罚),当满足安全条件时,奖励值为0,因此安全性奖励值的权重为一个较大的负值;dx10,dx02分别是汇入车辆与目标车道前车和后车的相对距离,其中,dis为汇入车辆与目标车道前车、目标车道后随车的相对距离安全阈值。更进一步,所述的任务成功奖励函数:dis1为安全距离阈值,dx10,dx02分别是汇入车辆与目标车道前车和后车的相对距离,当无人驾驶车辆汇入成功时,则给予一个较大的正奖励,则权重为一个较大的正值。更进一步,所述的汇入效率奖励值函数为:step表示当前周期,当无人驾驶车辆在预设值内汇入成功,则给予正奖励,反之,则给予负奖励,因此权重为正值。更进一步,所述的限速奖励函数为:vlimit表示道路限速。当无人驾驶车辆在限速范围内,则限速奖励值为0;如果超速,则给予负的奖励值,因此,权重为正值。更进一步,所述的舒适性奖励函数:驾驶过程中舒适性包括纵向和横向两方面的加速度和冲击度表征指标,冲击度是指加速度随时间的变化率,舒适性奖励值考虑纵向的加速度变化,经过归一化为:其中,|△a|表示两个周期的纵向加速度动作差值,amax表示最大的加速度,amin表示最大的减速度,当加速度差值为0时,奖励值为零;其余情况下,加速度不断变化,驾驶的舒适性减低,给予负奖励,因此权重为负值。3、本专利技术所产生的技术效果。(1)本专利技术的城市环境下智能驾驶车辆环境自适应汇入方法(LSPI算法)和Q学习算法比对,由于离散的状态空间制约了Q学习对环境的泛化和推广能力,不能充分的学习样本,产生信息的丢失,考虑将状态空间离散更精细,那么随着状态空间维度的增加,计算量将呈指数型增长,并且对存储空间的要求将会更大,因此算法收敛时间与所需样本集远远大于LSPI算法,学习所需时间也大于LSPI算法。(2)本专利技术LSPI算法和Q学习算法,经过验证,基于LSPI算法的汇入成功率随着训练次数的增加而逐渐提高,最终达到86%的成功率,说明本汇入策略方法能自主学习汇入策略。而Q学习成功率在25%上下浮动,汇入成功率较低,算法的适用性不高。附图说明图1为Q学习与LSPI算法成功率对比图。图2为汇入策略间隙选择与真实数据对比结果。图3为2745号汇入车辆与仿真实验数据对比图。图4为63号汇入车辆与仿真实验数据对比图。图5为多目标候选间隙选择流程图。图6为基于LSPI算法的汇入策略训练流程图。具体实施方式实施例本专利技术考虑目标间隙选择与期望汇入时机,并基于最小二乘策略迭代算法提出。本方法将一个候选间隙的前车、后随车与汇入车辆视作单元汇入系统,进行强化学习建模。在策略优化过程中,比较所有候选间隙的最大动作值函数,选择其中最大值对应策略作为输出策略。单元系统强化学习建模过程中,综合考虑了安全性、舒适性以及时效性等评价指标,建立了现行加权的综合奖励值模型,同时动作空间设定包含二维变量,即纵向速度决策变量和横向速度决策变量,解耦无人驾驶车辆的横、纵向运动,实现汇入过程的连续性控制。基于LSPI算法汇入策略建模:(1)状态空间LSPI算法的单元系统状态空间描述为七维的向量空间(x0y0v0x1v1x2v2),其中,(x0y0v0)为汇入车辆的位置坐标和速度信息,(x1v1x2v2)表示目标车道前车和后随车在仿真的过程中纵向位置坐标以及速度信息。(2)基函数确立基函数在某些情况下也被称为特征,它的本文档来自技高网
...

【技术保护点】
1.一种城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于包括如下步骤:提取初始状态向量;根据贪心策略计算动作变量,执行汇入动作的同时更新汇入场景,动作变量如果采取随机动作,则以均匀概率选取汇入间隙和汇入动作,如果采用智能选取动作,候选间隙包括前车、后随车与汇入车辆,比较所有候选间隙的最大动作值函数,选择其中最大值函数,从中挑选最大值对应的间隙和动作,返回目标汇入间隙和智能汇入动作;感知下一时刻的状态向量;根据环境反馈信息计算奖励值;将初始状态向量、动作变量、下一时刻的状态向量、奖励值存入样本集,达到足够样本后根据LSQ方法对策略进行评估和改进;重复执行上述步骤直至汇入成功。

【技术特征摘要】
1.一种城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于包括如下步骤:提取初始状态向量;根据贪心策略计算动作变量,执行汇入动作的同时更新汇入场景,动作变量如果采取随机动作,则以均匀概率选取汇入间隙和汇入动作,如果采用智能选取动作,候选间隙包括前车、后随车与汇入车辆,比较所有候选间隙的最大动作值函数,选择其中最大值函数,从中挑选最大值对应的间隙和动作,返回目标汇入间隙和智能汇入动作;感知下一时刻的状态向量;根据环境反馈信息计算奖励值;将初始状态向量、动作变量、下一时刻的状态向量、奖励值存入样本集,达到足够样本后根据LSQ方法对策略进行评估和改进;重复执行上述步骤直至汇入成功。2.根据权利要求1所述的城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于:状态空间描述为七维的向量空间,其中,前三维为汇入车辆的位置坐标和速度信息,后四维为目标车道前车和后随车在仿真的过程中纵向位置坐标以及速度信息。3.根据权利要求1所述的城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于:所述的初始状态空间采用的基函数采用两车辆的碰撞时间、车头时距、相对距离和相对速度以及运动状态纳入基函数。4.根据权利要求1所述的城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于:所述的动作变量包括纵向速度决策变量和横向速度决策变量。5.根据权利要求4所述的城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于:所述的动作变量中的纵向速度决策变量的加速度离散为急减速,减速,匀速,加速,急加速五个动作值,横向速度决策变量为两个动作值,则纵向速度决策变量和横向速度决策变量的动作空间为10个动作。6.根据权利要求1所述的城市环境下智能驾驶车辆环境自适应汇入方法,其特征在于:所述的计算奖励值的奖励函数为安全性奖励值、任务...

【专利技术属性】
技术研发人员:陈雪梅
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1