当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于分层滚动优化的自动驾驶多任务协调决策方法技术

技术编号:38466466 阅读:14 留言:0更新日期:2023-08-11 14:43
本发明专利技术涉及一种基于分层滚动优化的自动驾驶多任务协调决策方法,利用自动驾驶车辆环境状态信息作为强化学习决策框架的输入,将驾驶目标规划为多个驾驶任务的衔接,以实现多任务间的协调;将各个驾驶任务分别具体化为控制动作,但仅执行第一个驾驶任务的控制动作;然后滚动向前进入下一时间步,基于更新的自动驾驶车辆环境状态信息再次进行规划和控制动作的执行;如此反复进行规划,实现滚动优化决策。该方法能够进行多驾驶任务协调,适用于复杂驾驶场景中的自动驾驶长期决策。驶场景中的自动驾驶长期决策。驶场景中的自动驾驶长期决策。

【技术实现步骤摘要】
一种基于分层滚动优化的自动驾驶多任务协调决策方法


[0001]本专利技术涉及自动驾驶
,具体涉及一种基于分层滚动优化的自动驾驶多任务协调决策方法。

技术介绍

[0002]智能驾驶正处于飞速发展的时期,各种控制决策方法层出不穷。经典控制方法由于其稳定性和成熟的实践经验得到了广泛的应用,并不断改善自身适应日益增长的技术需求。然而当经典方法覆盖了大部分的控制场景时,剩下的极端场景却是经典方法无法解决的领域。此时强化学习展现出强大的生命力,并不断在各个场景和功能中取代原有的经典控制方法。
[0003]在强化学习蓬勃发展的同时,也面临着难以投入实际使用的现实问题。强化学习或者深度学习难以迁移到训练场景或者数据意外的情形,这限制了其广泛的应用。同时对于训练场景的设置和训练数据的需求比较严格,依赖于人对于数据的筛选和标注。
[0004]专利CN114170488A公开了一种基于条件模仿学习和强化学习的自动驾驶方法,解决了随机初始化导致的强化学习探索效率低下的问题,但是模仿学习的应用没有解决算法对于标签数据的依赖性。专利CN115629608A公开了一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,进一步考虑了车辆之间的交互对车辆轨迹预测的影响。然而更加复杂的驾驶场景中需要长期决策,并且端到端的控制损失了可解释性。专利CN114013443B公开了一种基于分层强化学习的自动驾驶车辆换道决策控制方法,将整个自动驾驶任务划分为决策和控制两层。分阶段的驾驶任务规划使得自动驾驶控制具有可解释性,然而该方案的可迁移性有待讨论验证。

技术实现思路

[0005]本专利技术的目的在于提供一种基于分层滚动优化的自动驾驶多任务协调决策方法,该方法能够进行多驾驶任务协调,适用于复杂驾驶场景中的自动驾驶长期决策。
[0006]为了实现上述目的,本专利技术采用的技术方案是:一种基于分层滚动优化的自动驾驶多任务协调决策方法,利用自动驾驶车辆环境状态信息作为强化学习决策框架的输入,将驾驶目标规划为多个驾驶任务的衔接,以实现多任务间的协调;将各个驾驶任务分别具体化为控制动作,但仅执行第一个驾驶任务的控制动作;然后滚动向前进入下一时间步,基于更新的自动驾驶车辆环境状态信息再次进行规划和控制动作的执行;如此反复进行规划,实现滚动优化决策。
[0007]进一步地,该方法包括以下步骤:
[0008]步骤S1、利用视觉传感器获得自动驾驶车辆周围的原始图像,对图像进行处理并获取其中的周围车辆和障碍物信息;将周围车辆和障碍物信息与本车信息、地图信息构成自动驾驶车辆环境状态信息并表示成高维环境状态鸟瞰图;将高维环境状态鸟瞰图输入神经网络框架,提取环境状态信息的低维表示,得到低维环境状态信息,以简化强化学习决策
框架的输入信息;
[0009]步骤S2、将低维环境状态信息输入强化学习决策框架,通过强化学习决策框架进行多任务决策,得到决策动作,即多个驾驶任务的组合串行;在此基础上,决策各个驾驶任务的控制动作序列,即控制动作的组合串行;控制动作由动作单元库中的动作单元组成;
[0010]步骤S3、当决策动作和控制动作序列被规划之后,仅执行第一个驾驶任务对应的动作单元序列;
[0011]步骤S4、滚动向前进入下一时间步,重复步骤S1

S3,更新自动驾驶车辆环境状态信息,并基于此再次进行决策和决策更新后第一个驾驶任务的动作单元序列的执行;如此反复进行规划,实现滚动优化决策。
[0012]进一步地,所述本车信息包括本车位置和状态信息;所述地图信息来源于已有高精地图或者识别模块获得的语义地图,包含道路路径信息;所述道路路径信息为全局的路径信息,包含从起点到终点的系列路径点,在鸟瞰图中以折线表示;所述高维环境状态鸟瞰图为256*256像素,被处理调整为64*64像素,并且视角始终与本车视图对齐,本车位于视图的固定位置。
[0013]进一步地,为了将车辆的行为建模并作为强化学习决策框架的输入,把本车和周围车辆的尺寸建模为具有碰撞风险的可变单元,根据车辆的驾驶行为动态改变。
[0014]进一步地,将车辆尺寸建模为可变单元,具体如下:
[0015]对于恒速行驶车辆,其前后尺寸分别定义为:
[0016][0017]其中,L
head
为可变单元基于车辆原始尺寸前方延长的尺寸,L
ttc
为可变单元基于车辆原始尺寸后方延长的尺寸,ΔT为与前车保持最小间距所需的时间常数,V
HV
为本车车速,V
front
为前车车速,V
rear
为后车车速;
[0018]对于正在加速车辆和减速车辆,分别将该车辆前方、后方尺寸增加;定义如下:
[0019][0020]其中,Δt表示图像采集间隔,Δv表示相对速度;
[0021]对于静止障碍物,将其尺寸向后延长至安全刹车距离;
[0022]对于变道车辆,将其变道方向的尺寸延长,延长尺寸以车道尺寸为准;
[0023]对于大型车辆,固定延长其前后尺寸,其中后方尺寸相对于前方尺寸延长更多;
[0024]所述可变单元用于判定事故发生,如果两车的可变单元重合,则判定两车事故。
[0025]进一步地,提取环境状态信息的低维表示,具体为:
[0026]所述环境状态信息的低维表示通过变分自动编码器获得,编码网络将原始的高维环境状态信息编码为低维状态表示;为了获得网络中的具体参数,目标函数设置为:
[0027][0028]其中,L
VAE
表示损失,D
KL
表示KL散度,表示多元高斯分布的先验概率分布,其中μ(s
t
),σ(s
t
)分别表示低维状态表示的平均值和标准偏差,为重构损失,用于测量预测帧与原始帧的接近程度。
[0029]进一步地,所述变分自动编码器包含4个3
×
3内核大小的卷积层,分别有32、64、128和256个信道;每个卷积层之后都为ReLU激活函数;然后将尺寸为64的潜在空间层完全连接到最后一个卷积层,使用Adam优化器训练;
[0030]所述变分自动编码器预先进行训练,得到的网络集成在强化学习决策框架中,作为视觉编码层;所述视觉编码层的参数不再随着强化学习决策框架的改变而改变;
[0031]所述变分自动编码器在prescan环境下训练,利用carsim搭建车辆模型,获取原始图像并处理为鸟瞰图格式,用于变分自动编码器的训练。
[0032]进一步地,所述强化学习决策框架基于分阶段设计,用于决定未来一段时间内的驾驶任务;所述强化学习决策框架输出驾驶任务的组合串行之后,进一步决策控制动作的组合串行;
[0033]所述控制动作的组合串行由动作单元库中的动作单元组成,所述动作单元包含车辆的速度和转角信息,所述动作单元由纯追踪算法和PID算法在虚拟环境中获得。
[0034]进一步地,所述动作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层滚动优化的自动驾驶多任务协调决策方法,其特征在于,利用自动驾驶车辆环境状态信息作为强化学习决策框架的输入,将驾驶目标规划为多个驾驶任务的衔接,以实现多任务间的协调;将各个驾驶任务分别具体化为控制动作,但仅执行第一个驾驶任务的控制动作;然后滚动向前进入下一时间步,基于更新的自动驾驶车辆环境状态信息再次进行规划和控制动作的执行;如此反复进行规划,实现滚动优化决策。2.根据权利要求1所述的一种基于分层滚动优化的自动驾驶多任务协调决策方法,其特征在于,包括以下步骤:步骤S1、利用视觉传感器获得自动驾驶车辆周围的原始图像,对图像进行处理并获取其中的周围车辆和障碍物信息;将周围车辆和障碍物信息与本车信息、地图信息构成自动驾驶车辆环境状态信息并表示成高维环境状态鸟瞰图;将高维环境状态鸟瞰图输入神经网络框架,提取环境状态信息的低维表示,得到低维环境状态信息,以简化强化学习决策框架的输入信息;步骤S2、将低维环境状态信息输入强化学习决策框架,通过强化学习决策框架进行多任务决策,得到决策动作,即多个驾驶任务的组合串行;在此基础上,决策各个驾驶任务的控制动作序列,即控制动作的组合串行;控制动作由动作单元库中的动作单元组成;步骤S3、当决策动作和控制动作序列被规划之后,仅执行第一个驾驶任务对应的动作单元序列;步骤S4、滚动向前进入下一时间步,重复步骤S1

S3,更新自动驾驶车辆环境状态信息,并基于此再次进行决策和决策更新后第一个驾驶任务的动作单元序列的执行;如此反复进行规划,实现滚动优化决策。3.根据权利要求2所述的一种基于分层滚动优化的自动驾驶多任务协调决策方法,其特征在于,所述本车信息包括本车位置和状态信息;所述地图信息来源于已有高精地图或者识别模块获得的语义地图,包含道路路径信息;所述道路路径信息为全局的路径信息,包含从起点到终点的系列路径点,在鸟瞰图中以折线表示;所述高维环境状态鸟瞰图为256*256像素,被处理调整为64*64像素,并且视角始终与本车视图对齐,本车位于视图的固定位置。4.根据权利要求2所述的一种基于分层滚动优化的自动驾驶多任务协调决策方法,其特征在于,为了将车辆的行为建模并作为强化学习决策框架的输入,把本车和周围车辆的尺寸建模为具有碰撞风险的可变单元,根据车辆的驾驶行为动态改变。5.根据权利要求4所述的一种基于分层滚动优化的自动驾驶多任务协调决策方法,其特征在于,将车辆尺寸建模为可变单元,具体如下:对于恒速行驶车辆,其前后尺寸分别定义为:其中,L
head
为可变单元基于车辆原始尺寸前方延长的尺寸,L
ttc
为可变单元基于车辆原始尺寸后方延长的尺寸,ΔT为与前车保持最小间距所需的时间常数,V
HV
为本车车速,V
front
为前车车速,V
rear
为后车车速;对于正在加速车辆和减速车辆,分别将该车辆前方、后方尺寸增加;定义如下:
其中,Δt表示图像采集间隔,Δv表示相对速度;对于静止障碍物,将其尺寸向后延长至安全刹车距离;对于变道车辆,将其变道方向的尺寸延长,延长尺寸以车道尺寸为准;对于大型车辆,固定延长其前后尺寸,其中后方尺寸相对于前方尺寸延长更多;所述可变单元用于判定事故发生,如果两车的可变单元重合,则判定两车事故。6.根据权利要求2所述的一种基于分层滚动优化的自动驾驶多任务协调决策方法,其特征在于,提取环境状...

【专利技术属性】
技术研发人员:林歆悠陈千炼张彪黄强叶锦泽
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1